Major Study/25-1 Deep Learning Application

[Deep learning application] Lecture 3. Linear regression

선경이 2025. 3. 29. 19:36

Linear regression

- 선형 회귀(linear regression)는 간단한 지도 학습(supervised learning) 방식으로 y가 x = [x1, x2, ... ,xd]에 선형적으로 의존한다고 가정한다.

- 실제 회귀 함수는 선형이 아니고, 겉보기엔 단순해 보이지만 선형 회귀는 개념적으로도 실용적으로도 매우 유용하다.

 

- 우리는 아래에 있는 그래프를 보고 이러한 질문들을 할 수 있다.

- 티비와 라디오 신문 광고는 매출 간에 관계가 있을까?

- 그 관계는 얼마나 강할까?

- 어떤 매체가 매출에 가장 큰 영향을 미칠까?

- 미래 매출을 얼마나 정확하게 예측할 수 있을까?

- 이 관계는 선형적일까?

- 광고 매체 간에 시너지 효과가 있을까?

 

- 위 그래프를 보고 다음과 같은 모델을 가정할 수 있다.

- 𝐲 = 𝛽₀ + 𝛽₁𝐱 + 𝜖

- 𝛽₀와 𝛽₁는 절편과 기울기 (계수 또는 파라미터) 를 나타내는 알려지지 않은 상수들이고  𝜖은 오차항이다.

 

-모델의 계수에 대한 추정값인 𝛽̂₀와 𝛽̂₁가 주어졌을 때, 우리는 밑에 식과 같이 y (미래의 예측) 를 예측할 수 있다.

- 𝐲̂ = 𝛽̂₀ + 𝛽̂₁𝐱

- 여기서 𝐲̂는 주어진 x에 기반해 실제 y를 예측한 값을 의미한다.

 

- 𝐲⁽ⁱ⁾ = 𝛽̂₀ + 𝛽̂₁𝐱⁽ⁱ⁾는 x의 i번째 데이터를 기반으로 한 y의 예측값이다.

- 평균 제곱 오차 (MSE, Mean Squared Error)는 다음과 같이 정의된다.

 

- 최소제곱법 (Least Squares Approach)은 MSE를 최소화하는 𝛽̂₀와 𝛽̂₁ 값을 선택한다.

- 이 최소화 해는 다음과 같이 유도된다.

 

 

- sales(매출)을 TV 광고비에 대해 회귀 (regression) 시킬 때, 최소제곱법을 이용해 적합시킨다.

- 즉, MSE를 최소화 하는 선형 회귀 모델을 찾는 것이다.

- 위 그래프의 경우, 선형 모델이 두 변수 간의 관계의 본질을 잘 포착한 것으로 볼 수 있다.

 

- Sales=β0 + β1TV + β2Radio + β3Newspaper + ϵ

 

- 왼쪽은 회귀계수이고, 오른쪽은 상관계수이다.

- 큰 회귀계수가 항상 높은 상관관계를 의미하는 것이 아니다.

- 회귀계수의 경우 변수의 스케일 또한 중요한 영향을 미친다.

 

Maximum Likelihood

- 지금까지 최소제곱법을 사용해 선형 모델을 데이터에 맞춰왔다.

- 일반적으로 우리는 𝐲 ≈ 𝑓(𝐱), 즉 모델이 실제 값을 잘 근사하길 원한다.

- 그런데 이 차이를 정의하는 방식은 여러 가지가 있을 수도 있다.

- 근데 왜 최소제곱법을 사용할까? 이 질문에 답하기 위해 최대우도 (MLE, Maximum Likelihood Estimation) 라는 개념을 도입한다.

 

- 확률 변수들이 집합이 i.i.d하다는 것은 각 변수가 서로 독립이고 모두 동일한 확률 분포를 따른다는 뜻이다.

- 독립이란 샘플들 간에 어떠한 연결성도 없다는 것이다.

- 즉, 한 변수의 값을 알더라도 다른 변수에 대해 아무런 정보도 얻을 수 없다는 것이다.

- 동일한 분포는 모든 샘플들이 같은 확률 분포로부터 나왔으며, 분포가 변동 없이 일정하다는 것이다.

- 예시로 주사위를 100번 던지는 경우가 있다.

- 대부분의 경우 샘플이 어떤 경우를 따르는지 정확히 모르기 때문에 i.i.d 가정을 자주 사용한다.

 

- 어떤 분포 pθ(x)로부터 m개의 i.i.d 샘플 x1,x2,...xm을 얻었다고 가정하자

- 여기서 𝜃(theta)는 분포의 파라미터들을 의미하고  pθ(x)는 그 분포의 확률 밀도 함수이다.

 

 

- Likelihood란 관측한 데이터가 나올 확률을 파라미터 𝜃의 함수로 본 것이다.

- 확률에서는 𝜃를 고정하고, 데이터의 확률 p𝜃(x)를 계산한다.

- likelihood에서는 데이터는 고정하고 L(𝜃)를 알 수 없는 파라미터 𝜃의 함수로 본다.

- 즉, 주어진 𝜃에서 관측된 데이터가 나올 확률에 비례한다.

- 샘플은 독립적이므로 전체 데이터 확률은 각 샘플 확률이 곱으로 표현된다.

 

- Log-likelihood란 우도 함수에 로그를 취한 것이다.

- f(x)의 값을 최대 또는 최소로 만드는 x의 값은 log f(x)의 값을 최대, 최소로 만드는 값과 동일하다.

- log-likelihood는 수학적으로 다루기 훨씬 쉽기 때문에 널리 사용된다.

 

- 최대우도추정(MLE, Maximum Likelihood Estimator)은 우도함수를 최대화하는 방식으로 모델의 파라미터를 추정한다.

- 즉, 가정한 통계 모델 하에서, 관측된 데이터가 가장 가능성 높게 나타나도록 만드는 파라미터를 선택하는 것이다.

 

 

- Maximum Likelihood는 어떻게 계산할까?

- 어떤 함수가 극값을 가지려면 그 지점에서 기울기가 0이라는 사실을 이용한다.

- 즉, log-likelihood는 기울기가 0이 되는 𝜃는 최대 우도 후보가 된다.

- 하지만 단순히 미분 값이 0이라는 것만으로는 최대값인지 최소값인지 알 수 없으므로 2차 미분을 통해 확인한다.

- 추가적으로, 로그 우도 함수의 Hessian 행렬 H에 대해, 어떤 벡터 v에 대해서도 위에 식을 만족하면 그 지점은 로컬 최대값이다.  

 

- n개의 i.i.d 샘플 x1, x2,...,xm에 대한 likelihood는 위와 같다.

- 이는 주어진 파라미터 𝜃 하에서, 관측된 데이터 x1,x2,...xm이 얼마나 가능성 있게 나올 수 있는지 나타낸다.

 

- supervised learning에선 입력 x와 출력 y 간의 관계를 모델링한다.

- 앞에서와 달리 여가서는 y가 x에 의존한다.

- 따라서 p(x)를 모델링 하는 대신, 입력 x가 주어졌을 때 출력 y가 나올 확률을 모델링한다.

- 입력값들 x1,x2,...,xm와 모델 파라미터  𝜃 가 주어졌을 때 그에 대응하는 출력값들 y1,...ym이 얼마나 일어날 가능성이 있는지 나타낸다.

 

- 다시 선형회귀로 돌아가보자.

- 우리는 입력 x와 출력 y 사이의 관계를 설명하기 위해 선형 모델을 가정한다.

 

- 좀 더 수학적으로 말하면, 우리는 다음과 같은 모델을 가정한다.

- 입력 x가 주어졌을 때 출력 y는 정규분포를 따른다. 따라서 선형 회귀 모델은 이렇게 쓸 수 있다.

- 최대우도추정(MLE)는 로그 우도 함수(log-Likelihood function)를 최대화하는 파라미터 값을 찾는 것이다.

- 우리가 사용해온 최소제곱법 (least squares method)은 오차가 정규분포를 따르고 분산이 일정하다는 가정 하에 MLE는 완전히 동일하다.

 

Linear Regression with Matrix Notation

* Matrix Notation 수업 자료 참고 *

 

- 어떤 feature들은 숫자형이 아니라 범주형인 경우도 있다.

- 예를 들면 혈액형, 거주 도시, 질병 진단 등이 있다.

 

- 병원이 환자의 질병을 아래와 같이 숫자로 인코딩한다고 가정해보자.

 

- 이렇게 인코딩 해버리면 당뇨가 고혈압보다 더 크다거나 숫자가 클 수록 더 심각한 질병이라고 해석될 수도 있다. 

- 이러한 경우에는 One-hot encoding 같은 순서가 없는 인코딩을 사용한다.

 

- One-hot encoding은 범주형 변수를 표현할 때 많이 사용되는 방법이다.

- 각 category를 binary vector로 표현한다.