본문 바로가기

Major Study/25-1 확률과 통계

[확률과 통계] 8장.회귀분석

01 단순선형회귀모형

추이파악과 예측모형

 

- 위 그래프는 광고비가 증가할수록 매출액이 증가하는 경향을 나타낸다.

- 위 그래프에서 모든 데이터점들을 지나는 최소 타원을 그리고 이 타원의 장축을 모형식으로 선택한다.

- 그 모형식은 두 변수 사이의 관계를 설명하기 위해 사용되는 막연한 관계 함수이며, 이를 추측함수라고 부른다.

- 데이터에 따라서 추측함수의 형태도 달라진다.

 

예측모형 (함수관계) 구축하기

- 왼쪽 그래프의 2번 모형은 주어진 데이터점들이 모두 식 위에 놓여있으므로 설명력이 100%이다.

- 2번 모형은 다른 표본을 적용하면 설명력이 달라질 수 있고, 표본이 크다면 식이 복잡하게 된다.

- 적은 표본으로 과도하게 높은 설명력을 갖도록 적합하는 것을 과대적합이라고 부른다.

 

02 최소제곱 추정량과 잔차제곱합

회귀모형의 구축

- 모집단의 두 변수 간 선형관계가 존재할지 여부를 판단한다. (표본에 의한다.)

- y = β0 + β1x

β0와 β1을 절편 모수, 기울기라고 한다.

 

- i번째 데이터 점 (xi, yi)에 대해 εi= yi (β0+ β1xi)는 오차이다.

- 이때, 데이터점들의 x좌표와 y좌표 사이의 관계식은 y = β0 + β1x + ε이고, 이를 단순선형회귀모형이라고 한다.

 

회귀모형에서 오차항의 가정

1. 추측함수 위 아래로 데이터점들이 균일하다. -> 오차들의 평균 = 0, 동일분포

2. 오차항은 정규분포를 따른다.

3. 오차항은 서로 독립이다.

- 위 세가지를 종합하여 간단히 ε1, ε2, ... , εn ~ i.i.d N(0, σ^2)로 나타낸다.

 

모형의 적합

- 표본에 의하여 회귀 모수  β0, β1를 추정하는 행위이다.

- 원리는 최소제곱법을 이용한다.

- 최소제곱법이란 오차항의 제곱을 최소화하는 방법이다.

- 데이터가 (x1,y2), (x2,y2), ... ,(xn,yn)일 때 β0, β1은 다음을 만족한다.

- 회귀계수의 추정량 :

 

오차항의 분산 σ^2의 추정값  σ^2

- σ^2이 작을수록 두 변수간 상관관계는 높음을 의미한다.

- 추정량 σ^2의 값이 작을수록 데이터점은 회귀직선 가까이에 놓여있음을 의미한다.

- 잔차 : 적합후의 오차를 잔차(residual)이라고 하며, e1, e2, ... ,en로 나타낸다.

- 잔차제곱합 : 오차제곱합이라고 하며 SSE로 나타낸다.

- σ^2의 추정

 

03 회귀모형의 설명력

결정계수 R^2

- 제곱합의 분해 : SST = SSR + SSE


- 총 제곱합                                 - 회귀직선에 의한 제곱합                 - 오차제곱합

 

- 결정계수

 

- 결정계수 식의 변형

: 여기서 r은 피어슨의 상관계수이다.

- -1 <= r <= 1

- 결정계수가 클수록 데이터점들이 회귀직선에 더 가까이 놓여있음을 의미하고,

- 이로 인해 결정계수를 회귀모형의 설명력이라 하기도 한다.

ex) R^2 = 0.9 -> 회귀모형의 설명력은 90%이다.

 

04 회귀계수의 추정과 검정

회귀계수 β1의 신뢰구간

- 관련 통계량과 분포

 

- β1에 대한 (1- α) 100% 신뢰구간

 

회귀계수 β1에 대한 가설검정 (양측검정)

step1. 가설설립 : H0: μ = 0 vs H1: μ != 0  /   H0: μ = 0 vs H1: μ < 0  /   H0: μ = 0 vs H1: μ > 0

                           -> 선형적 관련이 있다.     -> 양의 상관관계가 있다.      -> 양의 상관관계가 있다.

step2. 유의수준 : α                                     step3. 검정통계량 선택 :

 

step4. 기각역 설정 : 

 

step5. 의사결정 : 표본에 의하여 계산된 T의 값 t가 기각역에 속하면 H0 기각

 

            -> 상관관계 X                                              -> 양의 상관관계