Chap 4. 여러 개의 평균 비교 _ 4.2 분산분석 2

Date:     Updated:

카테고리:

태그:

F 통계량

분산분석을 하는 목표는 데이터가 집단 간에 평균 차이가 있다는 증거를 제공하는지 검증하는 것이다. 그룹 간 변동(SSG)는 그룹 평균이 얼마나 다른지 보여주는 좋은 측도이지만, 그룹 내 변동(SSE)와 균형이 맞아야한다. (그룹 간 평균이 멀어도 데이터의 범위가 겹치면 판단하기 어려움) 샌드위치 데이터에서 SSG는 세 개의 평균 사이의 변동이지만, SSE는 24개 데이터 모두에 대한 변동(데이터들의 범위는 결국 통합 표본의 범위와 비슷하니까 데이터 모두에 대한 변동이다.)이므로 이 둘을 직접 비교할 수는 없다. 비교하기 위해선 자유도가 필요하다.

총 데이터 수가 n이고 그룹 수가 k이면

총 변동(SSTatal)의 자유도 = \(n-1\) 그룹 간 변동(SSG)의 자유도 = \(k-1\) 오차 제곱합(SSE)의 자유도 = \(n-k\) (각 그룹에서 평균을 계산할 때 자유도 1을 상실하기 때문)

자유도는 제곱합과 같은 방식으로 합산된다.

SSTatal 자유도(n-1) = SSG 자유도(k-1) + SSE 자유도(n-k)

제곱합을 비교 가능한 측도로 만들기 위해 제곱합을 자유도로 나눈다. 이 값을 평균제곱이라 부른다.

\[평균제곱 = \frac{제곱합}{자유도}\]

그룹 평균제곱(MSG, Mean Square for Groups)과 오차 평균제곱(MSE, Mean Square for Error)는 다음과 같이 계산한다.

\[MSG = \frac{SSG}{k-1}, MSE = \frac{SSE}{n-k}\]

이제 여러 평균의 차이를 검증하기 위한 통계량을 정의할 수 있다. 영가설이 참(모든 집단의 평균이 같다)이라면, 두 평균제곱인 MSG와 MSE는 대략 같은 크기가 된다. 대안가설이 참이라면 MSG가 MSE에 비해 더 크게 나온다. 표본 평균의 변동이 그룹 내 변동보다 더 크기 때문이다. 두 변동의 추정치를 비교하는 F-통계량은 다음이다.

\[F = \frac{MSG}{MSE}\]

F통계량은 클 수록 좋겠네, 왜냐면 MSG가 MSE보다 커야 대안가설이 참일테니까

F-분포

다음 두 조건이 만족되면 F-분포를 사용하여 p-값을 구할 수 있다.

정규분포 : 각 모집단의 데이터 분포가 정규분포와 근사해야한다. 표본크기가 작다면 이상점과 비대칭성을 유의한다. 표본크기가 크다면 중심극한정리로 정규분포와 근사하다고 생각한다. 정규분포와 근사하지 않다면 F-분포를 사용할 수 없다.

등분산 : 각 그룹의 변동은 거의 같아야 한다. 일반적으로 평균이 커지면 변동도 커지는 경향이 있다. 이런 경우는 등분산 가정이 성립하지 않을 수 있다. 대략 한 그룹의 표본 표준편차가 다른 그룹의 표본 표준편차의 2배 이상이면 문제가 된다.

위 두 조건이 충족되면 영가설이 참일 때의 F-통계량은 F-분포를 따른다. F-분포는 두 개의 평균제곱의 비율에 대한 분포이므로 자유도를 두 개 가진다. 하나는 분자(MSG 자유도), 다른 하나는 분모(MSE 자유도)에 대한 것이다. 표기는 \(F_{k-1,n-k}\)로 한다. 아래는 \(F_{k-1,n-k}\) 분포의 그림이다

image

위와 같은 F-분포를 활용하여 F-통계량 보다 더 큰쪽의 면적을 찾으면 p값을 구할 수 있다. p값을 통해 영가설의 채택 여부를 검증한다.

요약

k개 그룹의 평균 차이를 검증할 때 가설은 다음과 같다.

\(H_0 : \mu_1 = \mu_2 = \cdot \cdot \cdot = \mu_k\)
\(H_\alpha :\) 최소한 하나는 \(\mu_i = \mu_j\)

변동을 분해하는 분산분석 표를 만든다.

image

F-분포를 사용하여 p값을 구하려면 다음 두 조건을 성립해야한다.

  • 표본 크기가 크거나(각 그룹의 표본 크기가 30 이상) 대략 정규분포를 근사해야한다.
  • 모든 그룹의 변동이 비슷해야한다. (평균이 너무 커지거나, 한 그룹의 표본 표준편차가 다른 그룹의 표본 표준편차보다 2배 이상이면 문제가 된다.)

구한 F-통계량을 자유도에 따른 F-분포에 따라 p값을 구하여 가설 검증을 한다.

대안 가설이 채택되면 그룹간의 평균 차이가 존재한다는 증거를 갖게된다. 이는 양적변수에게 범주형 변수가 연관이 있다는 것이다. 왜냐면 서로 연관이 있기 때문에 해당 범주형 변수 때문에 평균차이가 존재하는 것이니까.

변동을 보는 다른 방법

평균의 차이를 검증하기 위한 분산분석의 핵심은 표본평균(SSG 및 MSG) 간의 변동과 표본 내의 변동(SSE 및 MSE)을 비교하는 것이다. 아래 상자그림 그래프를 확인하자. 데이터 셋 A와 B는 그룹 평균이 같고 A와 C는 같은 산포(퍼진 정도)를 가지고 있다.

image

각 데이터 집합에 대한 분산분석 결과를 비교하며 그룹 평균 간의 변동과 그룹 내의 변동이 분산분석 표의 각 값과 유의성에 어떤 영향을 끼치는지 확인하자.


데이터 집합 A의 경우, 분산분석표(p값 = 0.2006)에서 표본 평균이 유의하게 다르지 않다는 결과가 나왔다. 동일한 모집단에서 크기가 \(n_i =12\)인 세 표본이 상단 그래프에 표시된 양만큼 차이가 나는 것은 드문 일이 아니다.

데이터 셋 A와 B는 동일한 표본평균이지만 각 표본의 표준편차는 B가 더 작다. 따라서 그룹 간 변동(SSG & MSG)은 같지만 그룹 내 변동(SSE & MSE)는 B가 더 작기 때문에 결과적으로 F통계량은 108로 증가(따로 계산한 결과)하였다. 108은 매우 큰 값으로 p값이 0에 수렴하였고 영가설을 기각할 유의미할 결과가 나왔다.

데이터 셋 A와 C는 SSE와 MSE가 동일하다. (같은 산포를 갖기 때문) 데이터 셋 C에서 평균들이 A보다 더 멀리 떨어져 있기에 SSG와 MSG값이 증가하였다. 때문에 F통계량 계산 중 분자가 더 커졌으므로 F통계량이 증가하였다. 따라서 데이터 셋 C는 그룹 별로 평균차이가 있다는 강한 증거를 발견한다.

위와 같은 변동분석에 대한 평균과 산포의 차이가 불러오는 결과와 그 해석은 평균차이 검증에서 단지 그룹 간의 평균차이 만을 고려하는 것이 아닌 그룹 내의 변동까지 고려해야한다는 것이다.

image

SSE는 그룹 내의 크고 작음 그리고 이를 증명하거나 알기 위해서는 영가설이 참이라고 가정할 때 한 모집단에서 넓은 산포를 다 아울러야하니까 통합표본을 통해 계산함. 따라서 자유도는 n-k이며 오차 제곱합이라 함.

ANOVA 계산

일반적으로 분산분석 계산을 모두 컴퓨터에서 하지만, 여러 변동이 어떻게 계산되는지는 알고 있어야 한다. 각 변동은 편차의 제곱합이며 편차는 변동의 유형에 따라 다르다. 모든 데이터의 평균을 전체 평균(grand mean)이라고 한다.

총 변동(TOTAL Variability) : 데이터와 전체 평균의 편차

모든 평균이 같다는 영가설 하에서 전체 평균($$\bar x)으로 공통 모집단 평균을 추정한다. 총 변동은 데이터와 전체 평균의 편차 제곱합이다.

\[총 변동 = SSTatal = \sum(x-\bar x)^2\]

그룹 간 변동(Variability BETWEEN Groups) : 그룹 평균과 전체 평균의 편차

그룹 평균을 비교하기 위해 그룹 평균과 전체 평균 사이의 편차를 제곱한다. 이 합계는 각 그룹에 대해 하나의 항만 가지고 있으며, 합계를 계산할 때 편차 제곱과 그룹의 표본 크기를 곱한다.

\[그룹 간 변동 = SSG = \sum n_i(\bar x_i - \bar x)^2\]

그룹 내 변동(Variability WOTHIN Groups) : 데이터와 그룹 평균의 편차

그룹 내 변동을 측정하기 위해 각 데이터와 해당 그룹의 평균 \(\bar x_i\)사이의 편차 제곱을 사용한다. 그룹 평균을 그룹에 대한 예측값으로 생각하면, 편차를 종종 오차 또는 잔차라고 부른다. 이런 이유로 오차 제곱합에 SSE라는 표기법을 사용하여 그룹 내의 변동을 측정한다.

\[그룹 내 변동 = SSE = \sum (x - \bar x_i)^2\]

SSTatal과 SSE는 개별 데이터 값을 사용하므로 합하는 항 수는 전체 표본 크기 n이다. 또한, 다음 등식이 성립하므로 제곱합 중에 두 개를 알면 나모지 하나는 쉽게 구할 수 있다.

\[SSTotal = SSG + SSE\]

전체 표본의 표준편차를 이용하여 SSTotal과 SSE를 빠르게 구하기.

아무래도 SSTotal과 SSE는 전체 데이터를 계산하기 때문에 시간이 오래걸린다. 이때 전체 표본의 표준편차와 각 그룹의 표본 표준편차를 안다면 시간을 절약할 수 있다.

\(s = \sqrt{\frac{\sum(x-\bar x)^2}{n-1}} = \sqrt{\frac{SSTotal}{n-1}}\)
\(SSTotal = (n-1)s^2\)

SSE도 유사한 방법으로 단순화 할 수 있다.

\[SSE = \sum(n_i -1)s^2_i\]

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기