01 수치형 데이터의 분포지표
중심위치 지표
- 수치형 데이터의 중심경향성에 대한 측정 지표 (대푯값)
- 평균, 중앙값, 최빈값 등이 있다.
- 평균은 산술평균, 기하평균, 조화평균, 절사평균 등으로 세분화할 수 있다.
산술평균
- 통계학에서 평균은 주로 산술평균을 지칭한다.
- 데이터들 간 변화량에 대해 무게중심적 성질을 갖는다. 합연산이 의미.
- 만약 데이터에서 상대적으로 크거나 작은 값이 나타나면 지표의 의미를 왜곡할 수 있다.
-> 이 데이터에서의 평균은 대푯값으로 바람직하지 않음
절사평균
- 좌우 같은 개수로 제거한 후 남아있는 데이터들의 산술평균
-> 10% 절사평균이면 좌우 10% 제거 후, 80% 데이터들의 산술평균
- 절사비율이 초과되지 않도록 최대한도 내에서 절사한다.
가짜의 정확성
- 산술 평균을 계산한 후, 그 값을 제시할 때는 자료의 성격에 맞게 유효숫자를 결정한다.
- 불필요하게 과도한 값을 제시하는 경우 가짜의 정확성이라 한다.
- 평균의 반올림 규칙 : 원데이터의 최저 자릿수보다 한 단위 아래로 반올림
ex) 3.612 -> 3.6
일반 반올림 규칙
- 최종적인 값이 도출될 때까지 중간과정에서 반올림하지 않는다.
- 중간과정에서 반올림을 하면 그 횟수 만큼 오차가 증가한다.
중앙값
- 크기가 작은 것부터 큰 순으로 나열했을 때 위치적으로 가운데 놓여지는 수
- 데이터 개수가 홀수이면 가운데 놓여지는 값, 짝수이면 가운데 두 데이터의 산술평균
최빈값
- 최빈값은 대푯값 중에서 유일하게 양적, 질적 데이터 모두에 대해 정의된다.
- 도수가 가장 큰 데이터의 값
- 도수의 최댓값이 같은 데이터가 여러 개일 때, 모두 최빈값으로 정의한다.
- 모두 1일 때는 존재하지 않는 걸로 정의한다.
산포의 수치적 측도
- 산포도는 산포의 정도를 나타내는 수치이다.
- 변동성의 지표.
- 종류 : 범위, 표준편차, 사분위수범위, 변동계수 등
범위
- 데이터의 최대값과 최소값의 차
- 데이터의 대칭성 등의 분포적 특징은 알 수 없다.
분산
- 데이터의 대표적인 산포도로 데이터들의 편차의 제곱의 평균이다.
- 모분산은 σ^2, 표본분산은 s^2
- 모분산과 표본분산의 값이 같을 것으로 기대되도록 n이 아닌 n-1로 나누어 보정한다.
표준편차
- 분산의 양의 제곱근, 원데이터의 단위를 일치하기 위해 분산으로부터 산출한다.
- 모표준편차는 σ, 표본표준편차는 s로 표시한다.
- 중심부에 놓여있는 데이터들의 비중을 나타내는 지표로 사용한다.
사분위범위수
- 데이터를 4등분 하기 위한 위치적인 기준값을 사분위수라고 한다.
- 사분위수는 크기 순으로 Q1, Q2, Q3로 표시한다. (Q2 = 제2사분위수)
- 데이터의 최소값부터 Q2까지의 하위 데이터의 중위수는 Q1
- 데이터의 Q2부터 최댓값까지 상위 데이터의 중위수는 Q3
- IQR = Q3-Q1 -> 사분위수범위
변동계수
- 특정 단위가 다른 자료들의 산포도를 서로 비교할 때 사용한다.
- 변동 계수 값이 클 수록 변동성이 크다.
- 100을 곱하여 백분율로 나타내기도 한다,
![]() |
![]() |
02 데이터의 시각화
표로 나타내기
- 교차표, 도수분포표
- 양적, 질적 데이터 모두 적용 가능하고 데이터를 한눈에 파악하기 좋다.
수치형 데이터의 도수분포표
- 이산형은 데이터들의 값과 도수를 변수로 하여 표로 제시한다.
- 연속형은 몇 개의 구간으로 나누어서 각 구간에 해당하는 데이터의 개수를 도수로 하여 표로 제시한다.
- 구간을 계급, 구간의 중앙값을 계급값이라 한다.
- 계급의 수는 데이터의 크기에 따라 5~15개에서 적절히 선택한다.
질적 데이터의 시각화
- 막대그래프
- 원그래프
- 부채꼴의 중심각은 해당 범주의 상대도수에 비례한다.
- 꺽은 선 그래프
수치형 데이터의 시각화
- 히스토그램 : 연속형에 적합
- 히스토그램의 분포적 특징
![]() |
![]() |
![]() |
![]() |
1. 단봉형, 비대칭적, 오른쪽으로 긴 꼬리
2. 단봉형, 대칭 -> 정규분포
3. 단봉형, 비대칭적, 왼쪽으로 긴 꼬리
4. 양봉형, 대칭적
- 1,3에서처럼 비대칭적 분포에서 비대칭 정도를 왜도라고 한다.
왼쪽으로 긴 꼬리형태의 분포
- 왜도의 값이 음수이다.
- 평균을 중심으로 데이터들의 비중은 상대적으로 왼쪽보다 오른쪽이 크다.
오른쪽으로 긴 꼬리형태의 분포
- 왜도의 값이 양수이다.
- 평균을 중심으로 데이터들의 비중은 상대적으로 오른쪽보다 왼쪽이 크다.
분포적 특징과 중심위치 관계
줄기-잎-그림 작성 방법
![]() |
![]() |
상자그림
- 왼쪽은 기본형이고, 오른쪽은 세밀형이다.
![]() |
![]() |
03 그룹화 자료의 중심위치와 산포
자료의 도표화
- 가중산술평균 산출방식은 개별 가중치를 각 관찰치에 곱하고 가중의 합으로 나누면 된다.
- 그룹화 자료의 평균 :
- 그룹화 자료의 분산
'Major Study > 25-1 확률과 통계' 카테고리의 다른 글
[확률과 통계] 5장. 추정 (0) | 2025.05.27 |
---|---|
[확률과 통계] 4장. 모집단과 표본 (0) | 2025.04.15 |
[확률과 통계] 3장. 확률과 확률변수 2 (0) | 2025.04.06 |
[확률과 통계] 3장. 확률과 변수 (0) | 2025.04.02 |
[확률과 통계] 1장. 통계학과 빅데이터 (1) | 2025.03.30 |