Chap 2. 평균과 비율에 대한 추론 _ 2.4 평균 차이에 대한 추론

Date:     Updated:

카테고리:

태그:

평균 차이의 분포

두 그룹의 모집단 평균을 μ1과 μ2로 표기할 때 관심이 있는 모수는 μ1−μ2이다.

표본평균 \(\bar x\)의 분포는 중심이 모집단 평균 μ이고 표준오차는 \(SE = σ/\sqrt{n}\)이며 표본 크기가 커지면 분포는 정규분포에 가까워진다.

두 그룹의 평균 차이의 분포의 중심은 μ1 - μ2이며 표준오차의 공식은 아래와 같다.

\[SE = \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}}\]

두 그룹의 평균 차이 - t-분포

표준오차를 계산할 때 모집단의 표준편차를 모르면 표본에서 계산한 표준편차를 대신 사용하고 정규분포가 아닌 t-분포를 이용하였다. 두 그룹의 평균 차이 분포 또한 표본 표준편차를 사용하고 표준정규분포가 아닌 t-분포를 사용할 것이다. 그리고 표본 크기가 작은 경우 표본이 심각한 비대칭이거나 이상점이 존재하는지 점검한다.

t-분포를 사용하는데 주의할 점은 자유도이다. 표본이 하나일 때는 n-1이지만 표본이 2개일 경우 매우 복잡한 공식을 사용해야한다.

image

하지만 간단하게 \(n_1 -\)과 \(n_2 - 1\) 중에서 작은 값을 자유도로 사용할 수 도 있다.

표본 평균 차이의 분포 그리기

평균이 μ1과 μ2인 모집단에서 표본 크기가 n1과 n2인 무작위 표본을 얻었을 때 표본 평균의 \(\bar x_1 - \bar x_2\)의 분포는 아래와 같다.

\[T(μ_1−μ_2, \sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}})\]

위와 같이 표준화한 값은 t-분포를 따르며 자유도는 근사적으로 \(n_1 -1\)과 ##n_2 -1\(중에서 작은 값이다.\)n_1 < 30\(이거나\)n_2 < 30$$인 경우 표본이 작다고 한다.

평균 차이에 대한 신뢰구간

통계량의 분포가 정규분포 일 때 신뢰구간은 다음과 같이 구한다.

\[표본 통계량 \pm z^* * SE\]

표본 평균 차이 분포는 t-분포의 조건에 부합한다면 \(T(μ_1−μ_2, \sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}})\)에 따라 다음과 같이 구한다.

\[(\bar x_1 - \bar x_2) \pm t^*\sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}\]

t-분포에서 중앙 부분의 면적이 원하는 신뢰수준이 되는 경계값이다.

평균 차이에 대한 가설검증

표본 평균의 분포가 정규분포를 따를때, 아래 표준화된 검증통계량의 p-값을 표준정규분포에서 구한다.

\[z = \frac{표본통계량 - 영가설의 모수값}{SE}\]

두 그룹의 평균을 비교할 때 보통 영가설은 \(H_0 : \mu_1 = \mu_2\) 또는 \(H_\alpha : \mu_1 \neq \mu_2\)이다.

따라서 영가설 모수값은 0이고 표본 통계량은 \(\bar x_1 -\bar x_2\)이다. 표준오차는 앞과 같이 \(\sqrt{\frac{s^2_1}{n_1} + {s^2_2}{n_2}}\)이다. 표본의 표준편차를 사용했기 때문에 t-분포를 사용해야하며 정규성 조건을 만족해야한다.

평균 차이에 대한 t-검증

영가설에 맞는 t-통계량 공식은 아래와 같다.

image

위 검증 통계량을 표본 크기에 맞는 자유도를 계산하여 t-분포를 구한뒤 대안가설에 맞게 p-값을 구하여 가설검증을 마치면 된다.

예시

간략하게 예시를 들면, 영가설이 두 그룹의 평균이 같다. 대안가설이 두 그룹의 평균이 같지 않다. 라고 설정을 한 뒤 각 그룹의 평균과 표준편차를 공식에 대입하여 t-통계량을 구하였다.

t-통계량이 2.03으로 계산되었고 자유도가 33인 경우 자유도 33인 t-분포에서 2.03보다 큰 분포의 면적을 구한 뒤 대안가설이 양쪽꼬리이므로 2배를 곱한 값 0.05을 계산할 수 있다.

p값이 0.05로 95%의 유의수준에서 유의확률과 같기 때문에 영가설을 기각한다.

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기