본문 바로가기

Major Study/25-1 확률과 통계

[확률과 통계] 2장. 정형자료 분포지표와 시각화

01 수치형 데이터의 분포지표

중심위치 지표

- 수치형 데이터의 중심경향성에 대한 측정 지표 (대푯값)

- 평균, 중앙값, 최빈값 등이 있다.

- 평균은 산술평균, 기하평균, 조화평균, 절사평균 등으로 세분화할 수 있다.

 

산술평균

- 통계학에서 평균은 주로 산술평균을 지칭한다.

- 데이터들 간 변화량에 대해 무게중심적 성질을 갖는다. 합연산이 의미.

- 만약 데이터에서 상대적으로 크거나 작은 값이 나타나면 지표의 의미를 왜곡할 수 있다.

-> 이 데이터에서의 평균은 대푯값으로 바람직하지 않음

 

절사평균

- 좌우 같은 개수로 제거한 후 남아있는 데이터들의 산술평균

-> 10% 절사평균이면 좌우 10% 제거 후, 80% 데이터들의 산술평균

- 절사비율이 초과되지 않도록 최대한도 내에서 절사한다.

 

가짜의 정확성

- 산술 평균을 계산한 후, 그 값을 제시할 때는 자료의 성격에 맞게 유효숫자를 결정한다.

- 불필요하게 과도한 값을 제시하는 경우 가짜의 정확성이라 한다.

- 평균의 반올림 규칙 : 원데이터의 최저 자릿수보다 한 단위 아래로 반올림

ex) 3.612 -> 3.6

 

일반 반올림 규칙

- 최종적인 값이 도출될 때까지 중간과정에서 반올림하지 않는다.

- 중간과정에서 반올림을 하면 그 횟수 만큼 오차가 증가한다.

 

중앙값

- 크기가 작은 것부터 큰 순으로 나열했을 때 위치적으로 가운데 놓여지는 수

- 데이터 개수가 홀수이면 가운데 놓여지는 값, 짝수이면 가운데 두 데이터의 산술평균

 

최빈값

- 최빈값은 대푯값 중에서 유일하게 양적, 질적 데이터 모두에 대해 정의된다.

- 도수가 가장 큰 데이터의 값

- 도수의 최댓값이 같은 데이터가 여러 개일 때, 모두 최빈값으로 정의한다.

- 모두 1일 때는 존재하지 않는 걸로 정의한다.

 

산포의 수치적 측도

- 산포도는 산포의 정도를 나타내는 수치이다.

- 변동성의 지표.

- 종류 : 범위, 표준편차, 사분위수범위, 변동계수

 

범위

- 데이터의 최대값과 최소값의 차

- 데이터의 대칭성 등의 분포적 특징은 알 수 없다.

 

분산

- 데이터의 대표적인 산포도로 데이터들의 편차의 제곱의 평균이다.

- 모분산은  σ^2, 표본분산은 s^2

- 모분산과 표본분산의 값이 같을 것으로 기대되도록 n이 아닌 n-1로 나누어 보정한다.

 

표준편차

- 분산의 양의 제곱근, 원데이터의 단위를 일치하기 위해 분산으로부터 산출한다.

- 모표준편차는 σ, 표본표준편차는 s로 표시한다.

- 중심부에 놓여있는 데이터들의 비중을 나타내는 지표로 사용한다.

 

사분위범위수

- 데이터를 4등분 하기 위한 위치적인 기준값을 사분위수라고 한다.

- 사분위수는 크기 순으로 Q1, Q2, Q3로 표시한다. (Q2 = 제2사분위수)

- 데이터의 최소값부터 Q2까지의 하위 데이터의 중위수는 Q1

- 데이터의 Q2부터 최댓값까지 상위 데이터의 중위수는 Q3

- IQR = Q3-Q1 -> 사분위수범위

 

변동계수

- 특정 단위가 다른 자료들의 산포도를 서로 비교할 때 사용한다.

- 변동 계수 값이 클 수록 변동성이 크다.

 

- 100을 곱하여 백분율로 나타내기도 한다,

 

02 데이터의 시각화

표로 나타내기

- 교차표, 도수분포표

- 양적, 질적 데이터 모두 적용 가능하고 데이터를 한눈에 파악하기 좋다.

 

수치형 데이터의 도수분포표

- 이산형은 데이터들의 값과 도수를 변수로 하여 표로 제시한다.

- 연속형은 몇 개의 구간으로 나누어서 각 구간에 해당하는 데이터의 개수를 도수로 하여 표로 제시한다.

- 구간을 계급, 구간의 중앙값을 계급값이라 한다.

- 계급의 수는 데이터의 크기에 따라 5~15개에서 적절히 선택한다.

 

질적 데이터의 시각화

- 막대그래프 

 

- 원그래프

- 부채꼴의 중심각은 해당 범주의 상대도수에 비례한다.

 

- 꺽은 선 그래프

 

수치형 데이터의 시각화

- 히스토그램 : 연속형에 적합

 

- 히스토그램의 분포적 특징

 

1. 단봉형, 비대칭적, 오른쪽으로 긴 꼬리

2. 단봉형, 대칭 -> 정규분포

3. 단봉형, 비대칭적, 왼쪽으로 긴 꼬리

4. 양봉형, 대칭적

- 1,3에서처럼 비대칭적 분포에서 비대칭 정도를 왜도라고 한다.

 

왼쪽으로 긴 꼬리형태의 분포

- 왜도의 값이 음수이다.

- 평균을 중심으로 데이터들의 비중은 상대적으로 왼쪽보다 오른쪽이 크다.

 

오른쪽으로 긴 꼬리형태의 분포

- 왜도의 값이 양수이다.

- 평균을 중심으로 데이터들의 비중은 상대적으로 오른쪽보다 왼쪽이 크다.

 

분포적 특징과 중심위치 관계

 

줄기-잎-그림 작성 방법

 

상자그림

- 왼쪽은 기본형이고, 오른쪽은 세밀형이다.

 

03 그룹화 자료의 중심위치와 산포

자료의 도표화

- 가중산술평균 산출방식은 개별 가중치를 각 관찰치에 곱하고 가중의 합으로 나누면 된다.

- 그룹화 자료의 평균 : 

- 그룹화 자료의 분산