R을 이용한 Classifiers : LDA, QDA, NaiveBayes
반응변수가 범주형 변수 일 때, 예측변수와 반응변수간의 관계를 설명하는 분류기(classifiers) 모델링이 쓰이게 된다. 다양한 모델들이 있지만, 그 중 Logistic Regression, LDA, QDA, NaiveBayes 모델 이 가장 널리 알려진 것들인데, 이것들은 모두 R에서 이미 구현이 되어있다. LDA, QDA, NaiveBayes 에 관해 간단히 설명을 하자면, (베이즈 정리를 통한 설명) 이들은 모두 베이즈 정리를 응용하여, 즉 적절한 가정과 이미 주어진 사전확률을 통하여 사후확률(posterior)을 예측하는 모델들이다. 이 때, 사전확률(prior) P(X= k | Y )에 대하여, 각 Y의 수준에서 X의 분포가 정규분포를 따른다고 가정을 한다. 이를 이용하면, 베이즈 정리를 통..
2. 단순회귀분석-회귀계수 검정(1)
저번 포스팅에서 회귀계수를 구하는 방법 대하여 다뤘다. 회귀계수 추정값을 구하고 나서의 문제는, 이 회귀계수가 실제값이랑 얼마나 차이가 나느냐일 것이다. 왜냐하면 회귀계수를 구하는데 우리가 사용한 데이터는 모집단에서 일부분을 추출한 '표본'이기 때문이다. 그렇다면, 회귀계수를 어떻게 검정할 것인가를 생각해보자. 다행히 이러한 검정을 위해, 통계학자들은 이러한 상황에서 유용하게 쓰일 수 있는 여러 분포를 정립시켜 놓았다. 결론적으로 말하면, 다음 단순회귀모형 Y = Bo + B1x에서 (y, bo, b1은 추정값) Bo, B1을 표준화한 Zo, Z1의 분포는 표준정규분포를 따른다. 다만, 이 때 Var(Bo)와 Var(B1)을 추정하는 과정에서 Zo, Z1이 t분포를 따르는 식으로 변형이 되게 된다. 간단..