Chap 4. 여러 개의 평균 비교 _ 4.3 분산분석 후 추론

Date:     Updated:

카테고리:

태그:

분산분석 후 추론

분산 분석을 사용하여 여러 그룹 간의 평균 차이를 검증하였다. 그러나 이 검증은 차이의 존재 여부는 알려주지만 어떤 그룹이 다른지는 알려주지 않는다. 추론 방법을 분산분석 결과에 적용한다. 각 그룹에서 평균에 대한 신뢰구간과 두 그룹 간의 평균 차이에 대한 신뢰 구간을 구하고 차이가 유의한지 검증할 수 있다.

  • 앞서 배운 공식들
\[평균 추론 검증 \bar x \pm t^*\frac{s}{\sqrt{n}}, 평균 차이 검증 (\bar x_1 - \bar x_2) \pm t^*\sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}, t-통계량 t = \frac{\bar x_1 - \bar x_2}{\sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}}\]

여러 그룹의 표본에서 얻은 분산분석 결과를 활용할 때는 위 공식을 약간 수정해야한다.

  • 분산분석 표의 MSE로 표준편차를 추정한다.
  • 모든 t-분포의 자유도는 오차의 자유도인 \((n-k)\)를 사용한다.

예를 들어 i번째 그룹 평균에 대한 신뢰구간은 다음과 같이 계산한다.

\[\bar x_i \pm t^*\frac{\sqrt{MSE}}{\sqrt{n_i}}\]

분산분석에서는 각 그룹의 표준편차가 동일하다(변동이 심하면 안되는 등분산성 때문에) 때문에 \(\sqrt{MSE}\)는 어떤 그룹 하나의 표본이 아닌 전체 표본에 기초한 추정치이다. 따라서 자유도는 \(n_i\)가 아니라 \((n-k)\)를 사용해야한다. 종종 \(\sqrt{MSE}\)를 합동표준편차라고 부른다.

예시

샌드위치 데이터로 샌드위치 종류별 평균 개미의 수에 관한 분산분석표를 만들었다.

image

땅콩버터 샌드위치 8개의 표본평균(\(\bar x\))는 34.0이다. 위 분산분석 결과를 활용하여 땅콩버터 샌드위치를 선호하는 개미의 평균 수에 대한 95% 신뢰구간을 구하라.

계산

MSE = 138.7, 자유도 21이다. 95%신뢰구간에서 자유도 21인 t-분포의 \(t^* = 2.08\)이다.

\[34.0 \pm 2.08\frac{\sqrt{138.7}}{\sqrt{8}} = 34.0 \pm 8.66 = (25.34, 42.66)\]

해석

땅콩버터 샌드위치를 선호하는 평균 개미의 수는 25.3에서 42.7 사이라고 95% 확신한다.

요약

표본 크기 \(n_1 + n_2 + n_3 + \cdot \cdot \cdot + n_k = n\)인 \(k\)개의 그룹에서 분산분석 후 평균에 관한 통계적 추론 공식이다. (i는 개별 그룹 번호)

\(\mu_i\)에 대한 신뢰구간 : \(\bar x_i \pm t^*\frac{\sqrt{MSE}}{\sqrt{n_i}}\)
\(\mu_i - \mu_j\)에 대한 신뢰구간 : \((\bar x_i - \bar x_j) \pm t^*\sqrt{MSE(\frac{1}{n_1} + \frac{1}{n_2})}\)
\(\mu_i = \mu_j\) 에 대한 가설검증(t-검정): \(t = \frac{\bar x_i - \bar x_j}{\sqrt{MSE(\frac{1}{n_1} + \frac{1}{n_2})}}\)

여기서 \(MSE\)는 분산분석표의 평균제곱오차이고 t-분포의 자유도는 \(n-k\)이다.

중복도 문제

그룹 수가 많은 경우 비교해야 할 쌍의 수는 빠르게 증가한다. k=4이면 6 쌍, k=5이면 10쌍 등. 이런 경우 두 가지 문제가 발생한다. 쌍 비교를 자동화해야 할 필요성과 검증을 많이 할수록 제1종오류를 범할 가능성이 증가하는 중복도 문제이다.

제1종오류는 영가설이 참이지만 영가설을 기각하는 오류이다.

이런 중복도에 대한 문제는 쌍이 많아질 때 5% 유의수준에서 20번에 1번은 진실과 다른 검증 결과가 나올 수 있다는 것이다. 따라서 분산분석 검증이 유의한 경우 쌍비교를 통해 정말 서로 평균이 다른지를 확인한다.

쌍비교를 위한 계산은 컴퓨터로 진행하며 그룹 별 쌍들을 비교를 위한 신뢰구간을 계산했을 때 신뢰구간이 0이 넘는 변수와 0을 넘지 않는 변수들이 있다. 이 두 묶음들은 서로의 평균이 다르다는 것을 의미한다.

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기