본문 바로가기

Statistic 전공

(7)
다변량 정규성 검정 *sas 공식 블로그에 있는 글을 요약해서 번역한 포스트 입니다. ** 원본 링크 : https://blogs.sas.com/content/iml/2012/03/02/testing-data-for-multivariate-normality.html Testing data for multivariate normality I've blogged several times about multivariate normality, including how to generate random values from a multivariate normal distribution. blogs.sas.com 개인 프로젝트 중 다변량 정규검정을 시행할 일이 있어 인터넷을 뒤지던 중 위의 포스트를 찾았다. 핵심아이디어는 다음과 같다..
[다변량 통계학] Levine Test 와 Welch's Anova Sas에서 ANOVA 프로시저를 이용하여 분산분석을 할 때, 분석 대상 데이터가 처리에 따른 등분산성을 만족하지 못할 수 있다. 이럴 때는 먼저 1. Levine Test를 이용해 처리에 따른 이분산성을 검정한다. 2. Welch's anova를 사용하여 분산분석을 시행한다. 두 기법이 뭔지는 시험 끝나고 나중에 공부해보자.. 쨋든 코드로 구현하면 다음과 같다. proc anova data=roots; class stock; model girth4 growth girth15 weight = stock; means stock / hovtest welch; run;
모형 타당성 검증 : 잔차분석 우리가 회귀분석을 이용하여 데이터를 분석할 때, 따르는 몇가지 기본 가정들이 있다. Y와 X는 선형 관계를 이룸 랜덤 오차 Epsilon의 등분 산성 랜덤 오차 Epsilon의 독립성 랜덤오차 Epsilon의 정규성 랜덤오차 Epsilon의 평균은 0. 풀어서 쓰면 위의 5가지 가정을 베이스로 하여 회귀분석이 이루어지는 것이다. 자. 이제 회귀분석을 다 했다고 하자. 결과가 어땠든 간에, 이 모델이 타당하다고 할 수 있을까? 아까 가정이 옳음을 보이지 못한다면, 회귀분석 과정 자체에 대한 의구심이 생길 수밖에 없다. 위 가정이 옳음을 보이는 것을 '모형 타당성 검증'이라고 한다. 모형 타당성 검증이 어떻게 이루어지는지를 알기 전에, 만약 모형 타당성 검증을 했는데 위 가정이 틀리다고 결과가 나왔다면, 무..
<중회귀분석> 2. 중회귀분석 추정계수의 Properties 앞 포스팅에서, $$ \hat{B} = (X'X)^{-1}X'Y $$ 임을 보였다. 이제, B_hat의 성질에 대하여 탐구해보자. 우리가 사실 궁금한 것은, B_hat을 True B의 추정량으로 쓸 만 한가? 그리고 그 분산은 어떻게 되는가? 이다. 따라서, 우리가 알아볼 properties 들은 다음과 같다. 1. B_hat이 unbiased estimator인가? 2. B_hat의 분산은 어떻게 되는가? 차례로 알아보자. 1. B_hat이 unbiased estimator인가? $$ E(\hat{B}) = E((X'X)^{-1}X'Y) = E((X'X)^{-1}X'(XB + \varepsilon)) $$ $$ = E((X'X)^{-1}X'XB) + E((X'X)^{-1}X'\varepsilon) = ..
<중회귀분석> 회귀계수 찾기 중회귀모형에서 $$ Y_i = B_0 + B_1X_1 + .... + \varepsilon $$ 인데, Simple regression에서 LSE estimator를 구하는 방식과 같이 우리는 잔차 e의 제곱합이 최소가 되게 하는 B를 구하면 된다. 이를 행렬로 표시하면 $$ \sum e^2 = (Y - X\hat{B})'(Y - X\hat{B}) $$. 여기서, Y는 y값들의 행벡터, B_hat은 추정 parameters 의 행벡터이다. 이제 위 값을 B_hat에 대해 미분하면, $$ X'X\hat{B} = X'Y $$ 라는 중회귀분석에서의 normal equation을 얻게 된다. 이때, 이 방정식을 만족시키는 점이 최저점임은 구해진 normal equation을 사용하면 얻을 수 있다. 이 때 만약..
2. 단순회귀분석-회귀계수 검정(1) 저번 포스팅에서 회귀계수를 구하는 방법 대하여 다뤘다. 회귀계수 추정값을 구하고 나서의 문제는, 이 회귀계수가 실제값이랑 얼마나 차이가 나느냐일 것이다. 왜냐하면 회귀계수를 구하는데 우리가 사용한 데이터는 모집단에서 일부분을 추출한 '표본'이기 때문이다. 그렇다면, 회귀계수를 어떻게 검정할 것인가를 생각해보자. 다행히 이러한 검정을 위해, 통계학자들은 이러한 상황에서 유용하게 쓰일 수 있는 여러 분포를 정립시켜 놓았다. 결론적으로 말하면, 다음 단순회귀모형 Y = Bo + B1x에서 (y, bo, b1은 추정값) Bo, B1을 표준화한 Zo, Z1의 분포는 표준정규분포를 따른다. 다만, 이 때 Var(Bo)와 Var(B1)을 추정하는 과정에서 Zo, Z1이 t분포를 따르는 식으로 변형이 되게 된다. 간단..
1. 단순회귀분석 - 회귀계수의 유도 단순회귀분석에서, 회귀계수를 구할 때 Y = Bo + B1X에서 B1 = Sxy/Sxx, Bo = Y_bar - B1*X_bar, 여기서 Bo와 B1는 Least Squared Estimator 이 됨을 알고 있다. 이를 증명해보자. 별거 없다. 쨋든 위 증명에 따라 LSE추정량을 산출하였다.