본문 바로가기
프로그래밍/딥러닝 (완)

선형 회귀의 기본 (5)

by 서가_ 2025. 4. 28.
반응형

선형 회귀의 기본 가정

선형 회귀는 널리 사용되는 통계적 모델링 기법이지만, 정확한 결과를 얻기 위해서는 몇 가지 중요한 가정이 충족되어야 합니다. 이러한 가정들이 충족되지 않으면 모델의 신뢰성과 예측 정확도가 크게 떨어질 수 있습니다. 이번 포스팅에서는 선형 회귀의 네 가지 핵심 가정을 살펴보겠습니다.

 

1. 선형성(Linearity)

선형 회귀 모델의 가장 기본적인 가정은 독립 변수(X)와 종속 변수(Y) 사이의 관계가 선형적이라는 것입니다. 즉, 이 관계는 다음과 같은 수학적 표현으로 나타낼 수 있습니다:

$$y = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b$$

선형성 검토 방법

  • 산점도(Scatter Plot) 분석: 독립 변수와 종속 변수 간의 산점도를 그려서 선형 관계가 있는지 확인합니다.
  • 잔차 플롯(Residual Plot) 분석: 예측값과 잔차(실제값 - 예측값) 간의 관계를 그래프로 그려 패턴이 있는지 확인합니다. 선형성 가정이 충족된다면 잔차 플롯에서 특별한 패턴 없이 무작위로 분포해야 합니다.

선형성 가정이 깨질 경우

만약 데이터가 비선형 관계를 보인다면, 다음과 같은 접근법을 고려할 수 있습니다:

  • 변수 변환(예: 로그 변환, 제곱근 변환)
  • 다항 회귀(Polynomial Regression) 사용
  • 비선형 모델(예: 의사결정 트리, 신경망) 적용

2. 독립성(Independence)

독립성 가정은 두 가지 측면에서 중요합니다:

  1. 독립 변수들 간의 독립성: 독립 변수들은 서로 강한 상관관계를 가지지 않아야 합니다(다중공선성 문제 방지).
  2. 잔차의 독립성: 잔차들 사이에 상관관계가 없어야 합니다.

수학적으로 표현하면:

$$E[\epsilon_i | X] = 0, \quad Cov(\epsilon_i, \epsilon_j) = 0 \text{ for } i \neq j$$

독립성 검토 방법

  • 더빈-왓슨(Durbin-Watson) 통계량: 잔차의 자기상관(auto-correlation)을 확인하는 데 사용됩니다. 값이 2에 가까울수록 자기상관성이 없음을 의미합니다.
  • 상관관계 행렬(Correlation Matrix): 독립 변수들 간의 상관관계를 확인합니다.
  • 분산 팽창 요인(VIF, Variance Inflation Factor): 다중공선성을 확인하는 지표로, 일반적으로 10 이상이면 심각한 다중공선성이 있다고 판단합니다.

독립성 가정이 깨질 경우

  • 독립 변수 간 상관관계가 높을 경우: 변수 선택 기법이나 주성분 분석(PCA)을 사용하여 상관관계가 높은 변수들을 처리
  • 잔차의 자기상관이 있을 경우: 시계열 모델(ARIMA, SARIMA 등) 또는 자기회귀 모델 사용

3. 등분산성(Homoscedasticity)

등분산성 가정은 모든 독립 변수 값에 대해 잔차의 분산이 일정해야 한다는 것을 의미합니다. 즉, 예측값이 커지거나 작아져도 오차의 크기는 일정해야 합니다.

수학적으로 표현하면:

$$Var(\epsilon_i) = \sigma^2, \quad \forall i$$

등분산성 검토 방법

  • 잔차 vs 예측값 그래프: 예측값에 따른 잔차를 그래프로 그려서 분포를 확인합니다. 이상적으로는 잔차가 0을 중심으로 균일한 폭을 가진 띠 형태로 무작위하게 분포해야 합니다.
  • 브루시-페이건 검정(Breusch-Pagan test): 이분산성을 통계적으로 검정하는 방법입니다.
  • 화이트 검정(White's test): 더 일반적인 이분산성 검정 방법입니다.

등분산성 가정이 깨질 경우

  • 가중 최소제곱법(Weighted Least Squares) 사용
  • 종속 변수의 변환(예: 로그 변환)
  • 이분산성에 강건한(robust) 표준 오차 사용

4. 정규성(Normality)

정규성 가정은 잔차가 정규 분포를 따라야 한다는 것을 의미합니다. 이는 모델의 예측 오차가 정규 분포를 따른다고 가정하는 것입니다.

수학적으로 표현하면:

$$\epsilon_i \sim N(0, \sigma^2)$$

정규성 검토 방법

  • 히스토그램(Histogram): 잔차의 분포를 시각화하여 정규 분포와 유사한지 확인합니다.
  • Q-Q 플롯(Quantile-Quantile Plot): 잔차의 분위수와 표준 정규 분포의 분위수를 비교합니다. 점들이 대각선에 가깝게 분포하면 정규성을 만족합니다.
  • 샤피로-윌크 검정(Shapiro-Wilk test): 잔차의 정규성을 통계적으로 검정하는 방법입니다. p-value가 0.05 이상이면 정규성을 만족한다고 판단합니다.
  • 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov test): 또 다른 정규성 검정 방법입니다.

정규성 가정이 깨질 경우

  • 데이터 변환(로그 변환, 박스-콕스 변환 등)
  • 이상치(outlier) 처리
  • 비모수적(non-parametric) 방법 고려
  • 샘플 크기가 충분히 크다면 중심극한정리에 의해 정규성 가정이 덜 중요해질 수 있습니다.

결론

선형 회귀 모델은 위의 네 가지 가정(선형성, 독립성, 등분산성, 정규성)이 충족될 때 가장 효과적으로 작동합니다. 이러한 가정들이 크게 위반될 경우, 모델의 신뢰성이 떨어지고 예측 성능도 저하될 수 있습니다.

따라서 선형 회귀 모델을 적용하기 전에 데이터가 이러한 가정들을 만족하는지 확인하고, 필요한 경우 적절한 변환이나 대안적인 모델을 고려하는 것이 중요합니다. 가정 검토와 진단은 모델 구축 과정에서 필수적인 단계이며, 이를 통해 더 정확하고 신뢰할 수 있는 모델을 개발할 수 있습니다.

반응형