Chap 6. 다중 회귀분석 _ 6.2 회귀모형 조건 검사
카테고리: Stat-basic
태그: Stat-basic Statistics
k개의 예측변수가 있는 다중 회귀모형은 다음과 같다.
\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdot \cdot \cdot + \beta_k X_k + \epsilon\]여기서 \(\epsilon\)은 \(N(0,σ_ϵ)\) 정규분포를 따르며 독립이다.
다중 회귀모형은 단순 선형모형처럼 모형에 대한 대부분의 조건은 오차항에 반영한다. 실제 반응변수값과 회귀모형 값의 편차는 다음과 같으리라 기대한다.
- 평균은 0
- 설명변수의 다른 값에서 동일한 변동
- 정규분포
하지만 다중 회귀모형은 단순 선형모형과 같이 회귀선을 시각적으로 표현하기 어렵다. 따라서 산점도를 생성하여 위와 같은 여러 조건을 확인하는데 어려움이 있다. 이에 예측변수 2개 이상이면 오차항의 조건을 확인하는 다른 방법을 알아본다.
잔차의 적합치 그림.
다중 회귀모형에서 오차는 평균 0, 표준편차 \(σ_ϵ\)인 정규분포를 따른다. 오차는 잔차 \(y_i - \hat y_i\)를 이용하여 추정한다. 최소제곱 회귀모형의 잔차는 항상 평균이 0 이므로, 분산이 변하는지, 정규분포를 따르는지 선형 패턴을 벗어나느지 등을 확인한다. 즉 데이터의 산점도를 보는 것이 아닌 잔차의 산점도를 확인하는 것이다.
위 산점도를 통해 오차항 가정을 확인할 수 있다. 선형패턴, 분산의 변화, 이상점 등을 확인한다.
잔차의 히스토그램, 점도표, 상자그림.
잔차를 점도표, 히스토그램, 상자그림 등으로 그려 정규성을 확인하고 이상점을 찾는 것도 좋은 방법이다.
-
그림 a의 잔차 히스토그램은 데이터가 왼쪽에 치중되어있으며 왼쪽 꼬리가 거의 없으므로 분포가 비대칭이다. 하지만 표본 크기가 상당히 크므로 정규성을 고민할 필요는 없다.
-
가운데 그림은 잔차 분포가 대칭이고 종 모양이며 0이 중심이므로 정규성을 의심할 필요가 없다. (잔차의 중심은 0이어야함. 최소제곱)
-
그림 c는 아주 큰 이상점이 존재하며 이 때문에 정확한 분포의 정규성도 확인하기 어렵게 만들었다.
깨달음
이와 같이 다중 회귀모형을 추정하기 위해서는 추정한 모형과 데이터간의 잔차를 통해 정규성, 각 예측변수들의 변동의 양, 선형 패턴등을 확인해야한다.
또한, 모형의 조건을 확인하는데 필요한 그림의 유형이 다르다. 산점도는 선형성의 결여나 변동의 균일성을 탐지하는데 도움이되지만 정규성을 평가하는데는 어려움이 있다. 반대로 잔차의 히스토그램 또는 점도표는 정규성 이탈이나 이상점을 찾아낼 수 있지만 데이터의 비선형 패턴이 있는지는 알려주지 않는다.
잔차의 독립
데이터 하나의 값이 회귀선의 위 또는 아래에 있다는 사실이 다음 데이터 위치에 영향을 주지 않는다는 것을 의미한다. 데이터 끼리 독립이기 위해서는 일반적으로 데이터 수집을 무작위 방법에 의존하는 수 밖에 없다. (인간이 사건을 조작할 수 있는 한계가 있기에 무작위를 통해 다른 조건 등을 무력화 해야함.)
회귀모형 조건이 맞지 않을 경우
-
추론하기 위해 특정 조건에 크게 의존하지 않는 붓스트램 또는 임의화 절차를 사용한다.
-
이상점을 삭제하는것을 고려하되 맹목적으로 배제하진 않아야한다. 때로는 그 이상점이 필요한 데이터인 경우도 있다.
-
데이터를 변환하여 회귀모형 조건을 만족시킨다. 제곱, 제곱근 또는 로그 등 있는 데이터를 조금 가공하는 식으로 회귀모형 조건을 만족한다.
댓글 남기기