Chap 5. 회귀분석 _ 5.1 기울기와 상관관계 추론

Date:     Updated:

카테고리:

태그:

양적변수 두 개 사이의 관계를 상관관계와 회귀직선으로 설명하였다. 붓스트랩 분포와 임의화 검증으로 상관관계와 기울기를 추론하는 방법도 다뤘다. 이 장은 두 개의 양적변수의 관계를 이론적인 분포를 사용하여 추론할 것이다.

단순 선형회귀 모형

단순 선형회귀 모형에서 반응변수 \(Y\)와 설명변수 \(X\)는 모두 양적 변수이다. \(X\)가 증가함에 따라 \(Y\)의 값은 직선 형태로 증가하거나 감소하는 경향이 있다고 가정한다.

선형회귀 모형은 두 부분으로 구성된다. 하나는 반응변수와 설명변수 관계의 주요 추세를 나타내는 부분이고, 다른 하나는 오차항으로 개별 편차가 추세에서 벗어나는 것을 허용한다. 절편과 기울기로 이루어진 단순 회귀분석은 데이터의 전반적인 추세를 나타내고, 각 개별 데이터는 회귀직선의 아래\(\cdot\)위로 흩어져 있다.

관계의 주요 추세는 회귀선을 따라 데이터가 응집하는 것, 오차항은 회귀선에 모든 데이터가 맞을 순 없기 때문에 회귀선과 데이터 사이의 편차를 나타내는 것이다

표기

표본에서 최소제곱 회귀선은 \(\hat Y = a + bX\)로 표기하였다. 하지만 회귀분석을 다루는 장에서는 아래와 같이 표기한다.

\[\hat Y = \beta_0 + \beta_1X\]

또한 모집단에서 단순 선형회귀 모형은 오차항을 추가한다.

\[\hat Y = \beta_0 + \beta_1X + \epsilon\]

모형에서 직선식\((β_0+β_1X)\)은 X의 변화에 따른 Y의 평균적인 변화이다. 오차항(ϵ)은 반응변수 Y가 모형의 위 또는 아래로 변하는 것을 허용한다.

모집단의 평균 μ와 비율 p를 표본에서 추정했던 것처럼, 모집단의 기울기와 절편도 표본으로부터 추정한다. 회귀선을 추정한 후 개별 오차항을 추정할 수 있다.

기울기에 대한 추론

회귀선을 추정한다면 당연히 기울기와 절편을 표본을 통해서 추정하게 된다. 현대에 이르러 컴퓨터를 통해 쉽게 기울기와 절편을 구하여 오차가 가장 적은 회귀선을 추정할 수 있지만 간단하게나마 기울기를 어떻게 추정하는지 알아보자.

image

위 데이터를 기반으로 기울기의 붓스트랩 분포 (표본 1000개), 임의화 분포(표본 1000개)를 뽑아보았다.

붓스트랩

image

임의화 분포

image

두 분포 모두 종 모양의 분포가 나왔다. 붓스트랩 분포의 중심은 대략 90.88(표본에서 구한 기울기와 동일)이고 표준오차는 대략 21.5이다. 임의화 분포의 중심은 대략 0(영가설의 모수값)이다. 임의화 분포를 통해 반응변수의 유의성을 가설검증을 하는 것. 즉, 기울기가 0이다라는 영가설을 기각함으로써 붓스트랩 분포에서 구한 추정 기울기 90.88만큼 극단적인 것은 없다는 것이다. 해당 변수가 유의하다는 증거이다.

위 결과를 통해 기울기에 추정에서 t분포를 사용할 수 있다는 것을 알 수 있다. 또한, 표준오차를 사용하여 신뢰구간을 구하거나 가설검증을 할 수 있다. 이때 t분포는 2개의 모수를 추정하기 때문에 자유도는 \((n-2)\)이다.

기울기의 추론 공식

단순 선형모형을 적합하기 위한 모든 조건이 만족되면 아래와 같은 공식을 이용하면 된다.

모집단의 기울기에 대한 신뢰구간

\[표본 통계량 \pm t^* \cdot SE = b_1 \pm t^*SE\]

\(H_0 : \beta_1 = 0\)에 대한 가설검증

\[t = \frac{표본 통계량 - 영가설의 모수값}{SE} = \frac{b_1 - 0}{SE} = \frac{b_1}{SE}\]

\(b_1\)은 표본에서 구한 최소제곱 회귀선의 기울기이고 \(SE\)는 기울기의 표준오차이다. 신뢰구간과 가설검증에서 사용하는 분포는 자유도가 (r-2)인 t 분포이다.

예시

분석은 r을 통해서 진행한다.


# 데이터 파일이 존재하는 url 
file_url <- "http://www.lock5stat.com/datasets2e/InkjetPrinters.csv"

# 데이터 만들기. 
inkjet <- read.csv(file_url)

# 선형모형 적합 - 회귀분석 실행
fit <- lm(Prime ~ ppm, data = inkjet)

# 회귀분석 결과 출력
summary(fit)

image

출력된 결과값에 의하면 \(b_1 = 90.88\)이고 표준오차 \(SE = 19.49\)이다. 자유도 (20-2) = 18인 t-분포에서 \(t^* = 2.10\)이므로 95% 신뢰구간은

\(b_1 \pm t^* \cdot SE\)
\(90.88 \pm 2.10(19.49)\)
\((49.95, 131.81)\)

기울기는 $49.95에서 $131.81 사이라고 95% 확신한다.

모집단의 기울기에 대한 가설검증은 \(H_0 : \beta_1 = 0, H_\alpha : \beta_1 \neq 0\)이라고 가설을 설정할 때 검증을 위한 검증 통계량을 계산한다.

\[t = \frac{b_1 - 0}{SE} = \frac{90.88}{18.49} = 4.66\]

자유도 18인 t-분포에서 4.66보다 큰 쪽의 면적 0.000097의 두배인 0.000194가 p값이다. p값이 매우 작으므로 영가설을 기각한다. 이는 인쇄 속도(PPM)이 잉크젯 프린터 가격 예측에 효과적인 변수라는 강력한 증거이다.

상관관계 t-검증

예측 변수와 반응 변수의 관계가 명확하지 않을 때 두 양적 변수 사이의 선형관계가 존재하는지 검증할 수 있다. 두 양적 변수 사이의 선형 관계를 측정한 값이 상관관계이다. 상관관계가 0이면 선형관계가 존재하지 않는다. 모집단 상관관계 ρ가 0이 아닌지 검증할 때 표본 상관관계를 사용한다. 크기 \(n\)의 표본에서 상관관계 \(r\)의 표줌오차는 아래와 같다.

\[SE = \sqrt{(1-r^2)/(n-2)}\]

\(H_0 : ρ = 0\)를 검증할 때 다음 표준화된 통계량을 사용한다.

\[t = \frac{표본 통계량 - 영가설의 모수값}{SE} = \frac{r-0}{\sqrt{\frac{1-r^2}{n-2}}} = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\]

r은 크기 \(n\)인 표본 상관관계이다. p-값은 자유도 (n-2)인 t-분포에서 구한다.

예시

잉크젯프린터 20종의 인쇄 속도(PPM)와 인쇄 비용(CostBW)의 상관관계 r = -0.636이다. 인쇄 속도와 인쇄 비용 사이에 음의 연관이 있다는 충분한 증거가 있는가?

ρ가 모집단에서 인쇄 속도와 페이지당 인쇄 비용의 상관관계라고 할 때 영가설은 \(H_0 : ρ = 0\)이고 대안가설은 \(H_\alpha : ρ < 0\)이다.

\[t = \frac{-0.636\sqrt{20-2}}{\sqrt{1-(-0.636)^2}} = -3.50\]

p값은 자유도 20-2 =18인 t-분포에서 -3.50보다 작은 쪽의 면적인 0.0013이다. p값이 매우 작으므로 영가설을 기각한다. 즉, 인쇄 속도와 페이지당 인쇄 비용 사이에 음의 연관이 있다는 강한 증거이다.

기울기와 상관관계

기울기 검증에서 t-통계량과 p값은 상관관계 검증과 정확하게 같다. (물론 위 예제는 서로 다른 문제라 서로 값이 달라보이지만) 즉 기울기와 상관관계 검증 중 어느 것을 사용해도 서로 연관(기울기가 있다는건 연관이 있다는것)성에 대한 검증을 할 수 있다는 것!

기울기에 대한 t검증은 컴퓨터로 회귀분석을 하면 결과에 포함된다. 상관관계에 대한 t검증은 r과 n만 알면 되므로 뉴스나 보고서의 요약 통계량으로 쉽게 계산할 수 있다.

유사성

  • 상관관계의 검증 결과는 기울기의 검증 결과와 같다.
  • 기울기의 부호는 상관관계의 부호와 같다. 즉, 기울기와 상관관계의 부호는 연관의 방향을 나타낸다.

차이점

  • 상관관계의 절댓값이 크면 선형관계가 강하다는 것을 의미한다. 하지만 기울기는 그렇지 않다. (증가량을 보여줄 뿐)
  • 기울기는 설명변수의 한 단위 증가에 대한 반응변수의 변화량이다. 그러나 상관관계는 이런 종류의 해석을 할 수 없다.

결정계수 : \(R^2\)

결정계수는 설명변수(\(X\))에 의해 설명되는 반응변수(\(Y\))의 총 변동의 비율이다. 즉, 결정계수가 클 수록 설명변수(들)이 얼마나 반응변수의 변동을 잘 설명하는지를 시사한다.

결정계수는 r^2으로 표시하며 상관관계 r은 \(-1 \le r \le 1\) 이므로 \(r^2\)은 항상 0과 1 사이의 값이다.

예시

잉크젝프린터의 가격과 인쇄속도(PPM) 사이의 관계에 대한 \(R^2\)값을 구해보자. 결정계수를 구하는 다양하지만 이번 게시물에서는 R에서 cor()함수로 계산하는 방법을 알아본다.


# inkjet 데이터프레임의 Price 변수와 PPM변수의 상관관계를 구한다. 
cor(inkjet$Price, inkjet$PPM)

결과로 r = 0.7397이 나왔다. 결정계수 \(R^2 = (0.7397)^2 = 0.547\)이다. 이는 표본에서 잉크젯 프린터의 가격 변동의 54.7% 가 인쇄 속도에 의해 설명된다는 것을 의미한다.

summary(lm(Price~PPM, data = inkjet))

회귀분석으로 결정계수를 구하는 방법이다. 위 코드로 실행한 결과는 아래와 같다.

image

결과 중 노란색으로 표시해둔 Multiple R-squared이 회귀분석표에서 결정계수에 대한 부분이다. 이렇듯 회귀분석을 통해서도 결정계수를 알 수 있다.

단순 선형모형의 조건

평균에 대한 t-검증은 모집단의 분포가 정규분포일 때 사용할 수 있다. 마찬가지로 단순 선형모형에서 기울기 추론 할 때 t-분포를 사용하려면 특정 조건이 충족되어야 한다.

단순 선형모형에서 오차항이 존재하는데 여기서 오차항은 서로 독립이며 \(N(0, \sigma_\epsilon)\)을 따른다.

예측변수 X의 각 값에 대한 Y값의 분포라 생각할 수 있는데, 여기서 Y의 평균은 회귀선을 따라 규칙적으로 증가 또는 감소하고 오차항은 개별 데이터를 일정한 변동(\(\sigma_\epsilon\))을 갖고 회귀선의 위 또는 아래로 분산시킨다.

아래 그림은 위에 설명한 추정한 회귀선에 오차항에 따라 위 아래로 분산된 모집단의 모형이다. 단순 선형 모형은 표본이 이러한 정규분포를 따르는 모집단에서 추출된다고 가정한다.

image

위 그림처럼 각 예측변수에 따른 반응변수의 값의 변동은 각각의 정규분포를 갖은채 그 분포안에 모집단이 존재한다고 생각한다.

따라서 단순 선형모형의 조건을 만족하는지 확인하기 위하여 그래프를 이용한 시각화를 사용한다. 산점도에 회귀선을 그려 단순 선형모형에 적합한지 시각적으로 평가한다. 아래 그림과 같이 점들이 회귀선의 위 또는 아래에 비교적 대칭적으로 분포한다면 단순 선형모형의 조건을 이상적으로 만족한 것이다. (이상점 또한 존재해선 힘들다.)

image


아래 그림은 단순 선형모형의 조건에서 벗어나는 명백한 징후의 예시이다.

image

  • 직선에서 이탈 : 그림 a는 회귀선이 직선이 아닌 곡선 형태로 일관된 추세가 존재한다.

  • 변동이 계속 증가 : 그림 b는 \(X\)이 커질 수록 회귀선 위와 아래로 변동이 증가한다.

  • 이상점 또는 영향점 : 그림 c는 4개의 데이터가 나머지 데이터의 패턴에서 크게 벗어나 있다.

따라서 회귀모형을 만들기 전 데이터를 시각적으로 점검하여 단순 선형조건을 충족하는지 확인하자.

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기