Chap 2. 평균과 비율에 대한 추론 _ 2.3 비율 차이에 대한 추론

Date:     Updated:

카테고리:

태그:

비율 차이의 분포

두 개의 다른 그룹에서 얻은 비율 차이에 대한 분포에서 관심 있는 모수는 \(p_1 - p_2\)이다. 여기서 \(p_1\)과 \(p_2\)는 각 그룹의 비율이다. 같은 그룹에서 계산한 두가지 다른 비율(예: A 후보와 B 후보의 득표율 차이)은 다루지 않는다.

  • 예시

“사람마다 진실한 사랑은 하나다”라는 질문에 2625명이 응답했다. 1213명의 남자 중 372명과 1412명의 여자 중 363명이 이 질문에 동의한다고 답했다. 남자 그룹과 여자 그룹에서 질문에 동의한 비율 차이를 추정하라.

여자 그룹의 표본 비율 \(\hat p_f = 363/1412\), 남자 그룹의 표본 비율 \(\hat p_m = 372/1213 = 0.307\)이다. 두 표본 비율의 차이는

\[\hat p_f - \hat p_m = 0.257 - 0.307 = -0.050\]

이다. \(\hat p_m - \hat p_f\)로 추정해도 괜찮다. 어떠한 경우에도 남자의 비율이 여자보다 0.05 높다는 것이다.

두 개의 비율 차이의 분포

표본의 추정치가 모집단 비율의 차이를 얼마나 잘 반영하는가를 알기 위해 우리는 분포를 만들고 신뢰구간과 가설검증을 실시해야한다.

비율이 각각 \(p_1\)과 \(p_2\)인 모집단에서 표본 크기가 \(n_1\)과 \(n_2\)인 무작위 표본을 얻었을 표본 비율 차이 \(\hat p_1 − \hat p_2\)의 분포는 중심이 모비율 차이인 \(p_1 − p_2\)이고 표준오차는

\[SE = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}\]

이다. \(n_1p_1 \geq 10, n_1(1-p_1) \geq 10, n_2p_2 \geq 10, n_2(1-p_2) \geq 10\)가 성립하면 정규분포로 근사 가능하다.

  • 예시

진실된 사랑에 대한 설문 예시를 다시 들어 0.257(여성)과 0.307(남성)인 데이터의 표준오차 계산 및 정규분포 조건을 확인해본다.

분포의 중심은 0.257 - 0.307 - -0.050 이다. 표준오차는 아래와 같이 구하면 된다.

\[SE = \sqrt{\frac{0.257(1-0.257)}{1412} + \frac{0.307(1-0.307)}{1213}}\]

정규분포 조건은 모두 10보다 크다

비율 차이에 대한 신뢰구간

비율 차이에 대한 신뢰구간 역시 비율에 대한 신뢰구간을 구하는 것과 비슷하다. 비율 차이 분포의 중심은 두 표본 비율의 차이값이다. 표준오차 역시 표본 비율을 이용하여 공식을 통해 얻어냈다.

신뢰구간 공식

\[(\hat p_1 - \hat p_2) \pm z^*\sqrt{\frac{\hat p_1(1-\hat p_1)}{n_1} + \frac{\hat p_2(1-\hat p_2)}{n_2}}\]

비율 차이에 대한 가설 검증

두 그룹에서 비율을 비교할 때 영가설은 보통 \(H_0 : p_1 = p_2\) 또는 \(H_0 : p_1 - p_2 = 0\)이다. 이 경우 영가설의 모수값은 0이다. 표본 비율의 차이가 표본 통계량이므로 표준화된 검증 통계량은 다음과 같다.

\[z = \frac{(\hat p_1 - \hat p_2) - 0}{SE}\]

위 식에서 표준오차 값는 두 표본 비율 차이 표준오차 공식을 대입하면 된다.

\[SE = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}\]

이전 비율 하나를 검증할 때 표준오차의 비율 p는 영가설의 \(p_0\)이었다. 하지만 현재 영가설에는 \(p_1\)과 \(p_2\)이 있고 어떤 값을 사용해야할 지 모른다. 영가설에선 두 개의 비율이 같다는 것이지 어떤 값과 같은지 구체적으로 말하지 않았기 때문이다.

영가설이 참일 때 공통 비율을 추정하는 가장 좋은 방법은 두 표본을 통합하여 하나의 표본으로 만들고 비율을 계산하여 공통으로 사용하는 것이다. 이 비율을 합동 비율이라 부르고 \(\hat p\)으로 표기한다 합동 비율의 표본 크기는 \(n_1 + n_2\)이고 여기에서 표본 비율 \(\hat p\)을 계산한다.

예시

두 명의 참가자가 ‘split’ 혹은 ‘steal’을 결정하는 게임을 한다. 둘 다 ‘split’을 선택하면 상금을 나누지만, 한 명이 ‘split’을, 다른 한 명이 ‘steal’을 선택하면 전체 상금은 ‘steal’을 선택한 사람에게 돌아간다. 둘 다 ‘steal’을 선택하면 상금이 없다. 게임 287회 중 574건의 ‘split’ 혹은 ‘steal’결정이 있었다. 참가자의 연령에 따라 분류한 표가 아래에 있다.

image

실험 주제 : 연령에 따라 ‘split’을 선택한 비율의 차이는 통계적으로 유의할까?

40세 미만 그룹 ‘split’ 선택 비율 \(p_1\), 40세 이상 그룹의 ‘split’선택 비율 \(p_2\)이다.

  • 가설

\(H_0 : p_1 = P_2\)
\(H_\alpha : P_1 \neq p_2\)

각 그룹의 표본 비율은 \(\hat p_1 = 187/382 = 0.490, \hat p_2 = 116/192 = 0.604\)이다.

영가설이 참이라는 가정하에 두 개의 비율은 같으므로 두 표본을 합하여 하나로 만들고 합동 비율을 계산한다.

\[\hat p = \frac{187 + 116}{382 + 192} = \frac{303}{574} = 0.528\]

위 합동 비율을 이용한 표준오차 계산

\[SE = \sqrt{\frac{\hat p(1-\hat p)}{n_1}+ \frac{\hat p(1-\hat p)}{n_2}}\]

주의할 점

두 개의 비율 차이에 대한 신뢰구간을 구할 때 표준오차 추정은 각각의 표본 비율을 사용한다. 하지만 가설검증에서는 두 개의 비율이 같다는 가정(영가설)하에 하는 것이므로 합동 비율을 사용하여 표준오차를 구한다.

두 표본의 차이 (표본 통계량)과 합동 비율로 계산한 표준오차를 활용하여 z-통계량 (\(\frac{표본 통계량 - 영가설의 모수값}{SE}\))를 계산한다.

image

표준정규분포에서 -2.58보다 작은 쪽의 면적은 0.0049이다. 대안가설이 양쪽꼬리이므로 0.0049를 2배한 값이 p값이다. 따라서 p-값은 0.0098이다.

p-값이 매우 작으므로 영가설을 기각한다.

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기