본문 바로가기

Statistic 전공/회귀분석

(5)
모형 타당성 검증 : 잔차분석 우리가 회귀분석을 이용하여 데이터를 분석할 때, 따르는 몇가지 기본 가정들이 있다. Y와 X는 선형 관계를 이룸 랜덤 오차 Epsilon의 등분 산성 랜덤 오차 Epsilon의 독립성 랜덤오차 Epsilon의 정규성 랜덤오차 Epsilon의 평균은 0. 풀어서 쓰면 위의 5가지 가정을 베이스로 하여 회귀분석이 이루어지는 것이다. 자. 이제 회귀분석을 다 했다고 하자. 결과가 어땠든 간에, 이 모델이 타당하다고 할 수 있을까? 아까 가정이 옳음을 보이지 못한다면, 회귀분석 과정 자체에 대한 의구심이 생길 수밖에 없다. 위 가정이 옳음을 보이는 것을 '모형 타당성 검증'이라고 한다. 모형 타당성 검증이 어떻게 이루어지는지를 알기 전에, 만약 모형 타당성 검증을 했는데 위 가정이 틀리다고 결과가 나왔다면, 무..
<중회귀분석> 2. 중회귀분석 추정계수의 Properties 앞 포스팅에서, $$ \hat{B} = (X'X)^{-1}X'Y $$ 임을 보였다. 이제, B_hat의 성질에 대하여 탐구해보자. 우리가 사실 궁금한 것은, B_hat을 True B의 추정량으로 쓸 만 한가? 그리고 그 분산은 어떻게 되는가? 이다. 따라서, 우리가 알아볼 properties 들은 다음과 같다. 1. B_hat이 unbiased estimator인가? 2. B_hat의 분산은 어떻게 되는가? 차례로 알아보자. 1. B_hat이 unbiased estimator인가? $$ E(\hat{B}) = E((X'X)^{-1}X'Y) = E((X'X)^{-1}X'(XB + \varepsilon)) $$ $$ = E((X'X)^{-1}X'XB) + E((X'X)^{-1}X'\varepsilon) = ..
<중회귀분석> 회귀계수 찾기 중회귀모형에서 $$ Y_i = B_0 + B_1X_1 + .... + \varepsilon $$ 인데, Simple regression에서 LSE estimator를 구하는 방식과 같이 우리는 잔차 e의 제곱합이 최소가 되게 하는 B를 구하면 된다. 이를 행렬로 표시하면 $$ \sum e^2 = (Y - X\hat{B})'(Y - X\hat{B}) $$. 여기서, Y는 y값들의 행벡터, B_hat은 추정 parameters 의 행벡터이다. 이제 위 값을 B_hat에 대해 미분하면, $$ X'X\hat{B} = X'Y $$ 라는 중회귀분석에서의 normal equation을 얻게 된다. 이때, 이 방정식을 만족시키는 점이 최저점임은 구해진 normal equation을 사용하면 얻을 수 있다. 이 때 만약..
2. 단순회귀분석-회귀계수 검정(1) 저번 포스팅에서 회귀계수를 구하는 방법 대하여 다뤘다. 회귀계수 추정값을 구하고 나서의 문제는, 이 회귀계수가 실제값이랑 얼마나 차이가 나느냐일 것이다. 왜냐하면 회귀계수를 구하는데 우리가 사용한 데이터는 모집단에서 일부분을 추출한 '표본'이기 때문이다. 그렇다면, 회귀계수를 어떻게 검정할 것인가를 생각해보자. 다행히 이러한 검정을 위해, 통계학자들은 이러한 상황에서 유용하게 쓰일 수 있는 여러 분포를 정립시켜 놓았다. 결론적으로 말하면, 다음 단순회귀모형 Y = Bo + B1x에서 (y, bo, b1은 추정값) Bo, B1을 표준화한 Zo, Z1의 분포는 표준정규분포를 따른다. 다만, 이 때 Var(Bo)와 Var(B1)을 추정하는 과정에서 Zo, Z1이 t분포를 따르는 식으로 변형이 되게 된다. 간단..
1. 단순회귀분석 - 회귀계수의 유도 단순회귀분석에서, 회귀계수를 구할 때 Y = Bo + B1X에서 B1 = Sxy/Sxx, Bo = Y_bar - B1*X_bar, 여기서 Bo와 B1는 Least Squared Estimator 이 됨을 알고 있다. 이를 증명해보자. 별거 없다. 쨋든 위 증명에 따라 LSE추정량을 산출하였다.