본문 바로가기

Statistic 전공/회귀분석

모형 타당성 검증 : 잔차분석

우리가 회귀분석을 이용하여 데이터를 분석할 때, 따는 몇가지 기본 가정들이 있다.

 

  1. Y와 X는 선형 관계를 이룸 <선형 회귀에서>
  2. 랜덤 오차 Epsilon의 등분 산성
  3. 랜덤 오차 Epsilon의 독립성 <E끼리는 서로 독립>
  4. 랜덤오차 Epsilon의 정규성
  5. 랜덤오차 Epsilon의 평균은 0.

풀어서 쓰면 위의 5가지 가정을 베이스로 하여 회귀분석이 이루어지는 것이다.

 

자. 이제 회귀분석을 다 했다고 하자. 결과가 어땠든 간에, 이 모델이 타당하다고 할 수 있을까?

 

아까 가정이 옳음을 보이지 못한다면, 회귀분석 과정 자체에 대한 의구심이 생길 수밖에 없다.

 

위 가정이 옳음을 보이는 것을 '모형 타당성 검증'이라고 한다.

 

모형 타당성 검증이 어떻게 이루어지는지를 알기 전에, 만약 모형 타당성 검증을 했는데 위 가정이 틀리다고 결과가 나왔다면, 무엇을 해야 할까?

 

단순히 다른 선형 모델을 선택하는 것은 문제의 해결방안이 될 수 없다.

 

$$ Y_i = B_0 + B_1X_1+....+ B_kX_k + \epsilon $$

은 True 모델이다. True 모델에서의 랜덤성 E에 대한 가정이 틀리다는 것은 우리가 구한 추정모델에 관계가 없다.

 

그렇기 때문에, 만약 모형타당성 검증결과가 가정이 틀리다는 것이라면, 분석 대상 데이터를 변형하려는 시도를 한다.

즉, 주어진 가정에 근사하도록 원 데이터를 변형하게 된다. 만약 이마저도 불가능하다면, 회귀선형모델 적합은 포기할 수 밖에 없다. -> 이는 선형회귀분석만 배웠다는 가정하에서다. 나중에 해결책 또한 배운다.

 

 

<모형 타당성 검증 방법>

모형타당성 검증에 주로 사용되는 방법이 바로 '잔차분석' 이다. 잔차를 분석하는 이유는,

잔차 e가 랜덤오차 E의 추정값이 될 수 있기 때문이다. E값을 어차피 정확히 아는 것은 불가능하니, 그 추정값 잔차 e를 통하여 E가 기본 가정을 따르는 지 검사하는 것이다.

 

이 때, 분석대상이 되는 잔차를 Scaling 하여 많이 사용하는데, <introduction to linear regresson Analysis> 에서는 다음의 4가지 방법을 소개한다.

 

  1.  Standardized Residuals  : $$ e_i / \sqrt{MS_{res}} $$ : MSres는 ei 의 분산이 된다.
  2. Studentized Residuals : MS_res는 var(ei)의 추정값일 뿐이다. (왜? : MS_res는 ei ,(i = 1...n)이 모두 동일분포를 가진다는 가정하에 산출된 Var(E)의 추정값). 정확한 분산은 Hat matrix를 통하여 구할 수 있다. 이 분산으로 잔차를 나눈 것이 바로 스튜던트화 잔차이며, 이 통계량은 t 분포를 따른다. $$ e_i / \sqrt{MS_res(1-h_ii)} $$
  3. Press Residuals : 이건 prediction에 관련된 개념인데, 기존의 잔차 $$ e_i = Y_i - \hat{Y_i} $$ 에서, Yi 의 추정값을 산출하는 과정에 i번째 data가 반영이 되어있기 때문에, 이로부터 산출된 잔차는 실제값을 과소추정하게 된다. 즉 ,가치있는 값은 test error인데, 기존 잔차는 training error를 산출하고 있으므로 i번째 데이터가 학습에서 제외된 모델을 통해 test error 을 산출하겠다는 것이다. 이를 직접구하는 식은 다소 복잡하고, 결론적으로 PRESS 잔차의 값은  $$ e_i / (1 - h_{ii}) $$ 이다.
  4. R - studentized Residuals : press residual의 개념을 studentized residual에 적용한 것이다.                                 $$ t_i = e_i / \sqrt{S_{(i)}^2(1-h_{ii})} $$. 이 때, $$ S_{(i)}^2 = ((n-p)MS_res - e_i^2 / (1 - h_{ii})) / (n-p-1) $$        여기서 Si^2 는 e(i) 들의 평균제곱합을 의미한다.

 

위의 잔차들은 제각각 장단점이 있겠지만, 일반적인 특징으로는

예측의 개념을 포함한 잔차 (3,4 - 주로 4를 씀. 3은 표준화 되지 않았으니까) 는 outlier을 판별하기 유리하다는 것은 짚고 넘어가자.

 

모형 타당성을 본격적으로 검증해보자..

 

위 잔차플롯들을 해석해보자. <다양한 잔차플롯의 형태만 그냥 나타낸 그림이다. 동일데이터로 그린것이 아님>

1. Y-X 선형성

-(c)는 Y-X 관계가 선형이 아님을 보여준다. Yi 추정값이 커짐에 따라, 잔차가 위로 포물선 형태를 띄는 것을 반영하여 y-x그래프를 대략적으로 그려보면 알 수 있을 것이다.

2. 랜덤오차의 정규성

-(b)의 normal probability plot에서, points 가 직선으로 정렬될 때 랜덤오차에 정규성이 있다고 본다. 위의 그래프에서는 직선과는 다른 형태를 띄므로, 랜덤오차는 정규성을 가진다고 볼 수 없다.

3. 랜덤오차 평균 

-(c) ,(d) 경우 모두 (박스의 세로 가운데가 0이라고 하면) 대략적으로 잔차의 평균이 0이라고 볼 수 있겠다.

4. 랜덤오차의 등분산성.

-(c)에서는 등분산성은 있는 것을 보이나, (d)의 경우 예측값이 커질 수록 분산이 커짐을 볼 수 있다.

5. 랜덤오차의 독립성

-이는 시계열 데이터에서 주로 다룬다고 하므로 pass.