Chap 5. 회귀분석 _ 5.3 신뢰구간과 예측구간
카테고리: Stat-basic
태그: Stat-basic Statistics
단순 선형모형을 적합하는 목적 중 하나는 주어진 설명 변수의 값에 대한 반응 변수의 값을 예측하는 것이다.
- 음식점에서 계산 금액이 30달러일 기대되는 팁 액수는?
- 분당 3페이지를 인쇄하는 잉크젯 프린터의 가격은 얼마인가?
- 시리얼에 10그램의 설탈이 있을 때 예상되는 칼로리 양은?
신뢰구간과 예측구간
적합된 회귀선으로 설명 변수의 특정 값이 주어지면 반응변수 값을 예측할 수 있다. 하지만 이 예측이 100% 정확할거란 보장은 없다. 추정된 모형의 계수에도 불확실성이 있고, 개별 데이터의 무작위 오차가 발생할 수 있으므로 예측은 구간 추정으로 하는 것이 적절하다.
설명 변수의 특정 값 \(x^*\)에 대한 반응변수 값의 구간 추정에는 두가지 유형이 있다.
- 평균 반응에 대한 신뢰구간
- 개별 반응에 대한 예측구간
예측값 \(\hat y = \beta_0 + \beta_1 x^*\)는 두가지 유형에서 동일하지만 목적과 해석은 상당히 다르다. 평균 변응에 대한 신뢰구간은 모집단의 평균 또는 비율과 같은 모수의 신뢰구간과 유사하다. 유일한 차이점은 “모집단”을 예측 변수의 특정 값의 반응변수의 값으로 제한한다는 점이다.
반면 예측구간은 예측 변수의 특정 값에 대한 모집단의 반응 값 대부분을 포함하느냐에 관심이 있다. 따라서 모집단의 대부분을 포함해야 하므로 구간이 훨씬 더 넓어야 한다.
위 그림은 예측 변수의 모든 값에 대하여 평균에 대한 신뢰구간(CI)과 개별 가격의 예측구간(PI)을 회귀선 주변에 표시하였다.
대부분의 데이터는 95% 신뢰구간을 벗어나는데 이는 신뢰구간은 개별 값이 아닌 모집단의 평균 값에 대한 것이기 때문이다. 대신 예측구간은 대부분의 데이터를 포함하는 것을 알 수 있다. (약 5%는 벗어 날 수도 있다.)
신뢰구간과 예측구간 모두 예측변수의 가운데 영역에서 더 좁고 양쪽 극단에서는 더 넓어지는 것을 확인할 수 있다. 이는 양쪽 극단에서 예측은 더 불확실하기 때문이다.
계산공식
예측변수의 값이 \(x^*\)일 때 예측된 반응변수의 값이다.
\[\hat y = b_0 + b_1 x^*\]반응변수의 평균에 대한 신뢰구간 공식이다.
\[\hat y \pm t^* s_\epsilon \sqrt{\frac{1}{n} + \frac{(x^* - \bar x)^2}{(n-1)s^2_x}}\]반응변수의 개별 값에 대한 예측구간 공식이다.
\[\hat y \pm t^* s_\epsilon \sqrt{1+\frac{1}{n}+\frac{(x^* - \bar x)^2}{(n-1)s^2_x}}\]\(\bar x\) 와 \(s_x\)는 예측변수의 평균과 표준편차, \(s_ϵ\)은 오차항의 표준편차이다. \(t^∗\)는 자유도 (n - 2)인 t-분포의 백분위수이다.
두 구간을 산하는 공식은 매우 비슷하다. 유일한 차이점은 예측구간의 제곱근 안에 1을 더한다는 것이다. 단순 선형모형에서 개별 데이터에서 발생하는 오차 ϵ의 변동을 반영한 것이다. 회귀선을 완벽하게 추정할 수 있다 하더라도 오차항의 변동으로 인해 개별 값을 예측하는데 여전히 불확실성이 있을 것이다. 예측변수의 값이중심에서 더 멀리 있을수록 오차 한계가 증가하는 것을 \((x^∗ − \bar x)^2\) 항에서 확인할 수 있다.
댓글 남기기