Chap 6. 다중 회귀분석 _ 6.1 다중 신뢰구간과 예측구간

Date:     Updated:

카테고리:

태그:

다중 회귀모형

현실 세계에서 예측변수 하나만으로 반응변수를 예측한다는것은 있을 수 없다. 여러 복합적인 변수로 인하여 사건 혹은 작용이 일어나기 때문이다. 따라서 회귀모형을 만들 때 설명 변수가 여러개인 경우 더 효과적으로 반응변수를 예측 할 수 있다.

반응변수 \(Y\)와 k개의 설명변수 \(X_1, X_2, ... , X_k\)가 있을 때, 다중 회귀모형은 다음과 같다.

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdot \cdot \cdot + \beta_k X_k + \epsilon\]

여기서 \(\epsilon\)의 분포는 \(N(0,σ_\epsilon)\)이며 독립이다.

이 모형에는 두 개 이상의 예측변수가 있으며, 오차에 대한 조건은 단순 선형모형과 같다. 다중 예측변수인 경우 산점도에 회귀선을 표현하기 어렵지만 통계 프트웨어로 표본에서 회귀 계수를 추정한다. 적합된 회귀식은 다음과 같다.

\[\hat Y = b_0 + b_1 X_1 +b_2 X_2 + \cdot \cdot \cdot + b_k X_k\]

여기서 회귀 계수는 반응변수의 실제 값 \(Y\)와 예측값 \(\hat Y\)의 잔차 제곱합을 최소화하여 구한다.

예시

InkjetPrinters 데이터에서 인쇄 속도(PPM)와 흑백 인쇄 비용(CostBW)으로 잉크젯 프린터의 가격(Price)을 다중 회귀모형으로 예측해보자.

url <- "http://www.lock5stat.com/datasets2e/InkjetPrinters.csv"
InkjetPrinters <- read.csv(url)

fit <- lm(Price ~ PPM + CostBW, data = InkjetPrinters)
summary(fit)

위 코드에 대한 결과는 다음과 같다.

image

위 분석결과를 통해 우리는 \(\hat Price = 89.205 +58.099 \cdot PPM - 21.1215 \cdot CostBW\)라는 회귀모형을 얻을 수 있다.

깨달음

위의 예시 처럼 데이터를 통해서 회귀모형을 만들었다. 그런데 이 모형이 얼마나 효과적인지, 그리고 다른 설명변수를 넣었을 때 만드는 회귀모형들과 비교하였을 때 무엇이 가장 최적화된 모형인지 비교하여야 한다.

모형을 비교하기 위하여 모든 데이터의 잔차를 고려해야 한다. 한 가지 방법은 오차항의 추정된 표준편차를 살펴보는 것이다. 위 다중 회귀모형의 출력에서 \(S_\epsilon = 52.82\) 인 반면 단순회귀분석의 오차항의 표준편차는 \(s_\epsilon = 58.55\)이다. 이를 보면 단순회귀분석으로 반응변수의 값을 예측했을 때가 더 오차가 적다는 것을 알 수 있다.

이렇게 꼭 설명변수가 많고 적음으로 더 효과적이고 비효과적인지 단정할 수 없다. 뒤에 설명할 내용들을 토대로 더 좋은 회귀모형을 위해 어떤 것들을 숙지해야 하는지 확인해보자.

다중 회귀모형에서 각 설명변수에 대한 검증

예측 변수를 집어넣어 회귀모형을 만들때 어떤 변수가 유용한지 알기 위해서는 각 변수의 계수가 0과 유의하게 달라야한다. 이는 단순 선형모형에서 기울기에 대한 t-검증과 유사하다.

다중 회귀모형에서 각 계수의 t-검증

다중 회귀모형에서 예측변수 \(X_i\)의 유용성을 검증하는 가설은 \(H_0 : \beta_i = 0 vs H_\alpha : \beta_i \neq 0\)이다. 보통은 컴퓨터 소프트웨어를 사용하여 t-통계량과 p값을 구한다. (회귀분석을 하면 바로 나온다.)

검증 통계량 t의 계산 식은 아래와 같다.

\[t = \frac{b_i}{SE_bi}\]

\(b_i\)는 추정된 회귀계수, \(SE_bi\)는 표준오차이다. p값은 자유도가 (n-k-1)인 t-분포에서 구한다. n은 표본크기, k는 예측변수의 수이다. 영가설을 기각하면 게수가 0과는 다르다 즉 유용한 변수다라는 증거이다.

위의 방법으로 회귀모형에서 유용한 설명변수들을 추려낼 수 있다. 하지만 주의하자 설명변수를 제거, 추가하는 작업은 수치만으로 해결되지 않는 경우가 많다.(여러 척도상 해당 변수를 빼야하지만 현실에서는 매우 유용하다고 판단하는 경우 등) 그리고 어떤 변수가 매우 높은 연관성을 보이다가도 다른 변수의 수정으로 인해 그 연관성이 변화하는 경우가 많다.

따라서 가용 가능한 변수를 모두 투입한 이후 가장 p값이 높은 변수들을 하나씩 삭제하고 다시 회귀분석을 통해 다시 t-검증을 하며 변수를 결정하는 것이 맞다.

다중 회귀모형에서 분산 분석

개별 t-검증은 모형에 포함된 개별 예측변수의 효과에 대해 알려주지만, 전체 예측변수의 효과를 평가하는 방법은 알려주지 않는다. 다중 회귀모형의 경우 예측변수들의 조합이 반응변수를 설명하는데 얼마나 효과가 있는지 측정해야한다. 따라서 분산분석이 필요하다.

다중 회귀분석의 반응변수의 총 변동은 단순 회귀분석과 같이 두 개로 나뉜다. 하나는 모형에 의해 설명되는 변동이고 다른 하나는 모형으로 설명되지 않고 남아 있는 오차 변동이다.

image

각각의 변동을 측정하기 위해 편차의 제곱합 계산은 일반적으로 컴퓨터에 의존한다. 또한, 계산 공식은 단순 선형 모형과 동일하다.

편차 제곱합 계산공식

예시

프린터 가격에 대한 두 회귀 모형의 분산분석표는 아래와 같다. 모형 A는 단일 예측변수(ppm)만 사용한다. 모형 B는 두 번째 예측 변수로 costbw를 추가한다. 새로운 CostBW 예측변수를 추가함에 따라 분산분석표가 어떻게 변하는지 설명해보겠다.

image

  • 회귀모형에 의해 설명되는 제곱합(SSModel)은 CostBW를 추가할 때 74540에서 88809로 증가한다. 새로운 예측변수를 추가하면 모형이 설명하는 변동은 항상 증가한다.

  • 오차항의 제곱합(SSE)은 61697에서 47427로 감소한다. 이는 총 변동(SSTotal = 136237)이 모든 모형에서 동일하기 때문에 당연한 결과이다. 새 예측변수를 추가하면 전체 데이터를 예측하기 위한 정확도만 개선될 수 있다.

  • 회귀모형의 자유도는 1에서 2로 증가한다. 일반적으로 다중 회귀모형의 경우 이 자유도는 모형에 있는 예측변수의 수가 된다.

  • 오차에 대한 자유도는 18에서 17로 감소한다. 총 자유도가 19이기 때문에 당연한 결과이다.

  • 제곱합과 자유도가 변했으므로 평균 제곱이 달라지며 F-통계량 값도 같이 변한다.

  • p-값은 같아 보이지만 첫 번째 값은 F1,18 분포를 기반으로 하고 두 번째 값은 F2,17을 사용한다.

요약

회귀분석에서 분산분석은 전체 모형, 즉 모든 k개의 예측변수를 그룹으로 검증하는 것이다. 따라서 가설은 아래와 같다.

\(H_0 : \beta_1 = \beta_2 = \cdot \cdot \cdot = \beta_k = 0\)
\(H_\alpha :\) 최소한 하나의 \(\beta_i \neq 0\)

분산분석 결과 p값이 작으면 여러 설명변수로 만든 회귀모형은 적어도 하나는 유용한 변수라는 것이다. 어떤 설명변수가 유용한지 판단하기 위해서는 개별 t-검증이 필요하다.

image

결정계수

결정계수 또는 \(R^2\)은 회귀모형으로 설명되는 반응변수의 총변동의 양(비율)이다. 다중 회귀분석에서는 단순 회귀분석 때처럼 개별 예측변수와의 상관관계를 제곱하여 결정계수를 얻을 수 없지만 분산분석 표의 정보를 사용하여 \(R^2\)을 얻을 수 있다.

결정계수 \(R^2\)의 분산분석 이용 계산식은 아래와 같다.

\[R^2 = \frac{SSModel}{SSTotal}\]

분산분석을 통해 해당 계산식의 요소들을 알아내어 계산하거나 회귀분석을 통해 나오는 Multiple R-squared 값으로 결정계수를 알면된다.

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기