Chap 2. 평균과 비율에 대한 추론 _ 2.1 비율에 대한 추론

Date:     Updated:

카테고리:

태그:

표본 비율의 분포

범주형 자료에서 관심있는 모수는 모집단의 비율p이다. 모집단의 비율을 추정하기 위해 표본을 뽑아 추정을 한다. 표본크기가 커지면 표본 비율 \(\hat p\)의 분포는 중심극한정리에 따라 정규분포를 따른다. 이 분포의 중심(평균)이 모집단 비율 p이다. 표준편차는 붓스트랩 & 임의화 분포의 표준오차 추정방법과 모비율을 통한 공식을 통해 구하는 방법이 있다.

표본 비율의 중심 극한정리

비율 p인 모집단에서 표본크기가 n인 무작위 표본을 뽑았을때, 표본 비율의 분포는 중심이 모집단 비율 p이고, 표준오차는 \(\sqrt{\frac{p(1-p)}{n}}\)이다. 표본 비율 분포는 \(np \geq 10\)이고 \(n(1-p) \geq 10\)인 조건이 성립하면 정규분포를 사용할 수 있다.

표본 비율 분포 정규분포 근사 방법

\[N(p,\sqrt{\frac{p(1-p)}{n}})\]

예시

항공기 통계에 따르면 ABC 항공사에서 80%의 여객기는 정시에 도착한다고 한다. 무작위로 400편을 뽑아 정시에 도착한 여객기의 비율을 조사한다. 이 통계량의 표준오차를 계산하고 정규분포를 사용하는 조건이 만족되는지 조사하라.

표본 비율 분포의 중심은 모집단의 비율인 0.80이다.
표준오차는 \(\sqrt{\frac{0.80(1−0.80)}{400}} = 0.02\)이다.

정규분포 사용 가능 여부

\(n= 400, p= 0.8\) 이면 \(np=400×0.8= 320, n(1−p)=400×(1−0.8)=80\) 이다. 두 값 모두 10보다 크므로 표본 비율의 분포로 정규분포를 사용할 수 있다.

비율에 대한 신뢰구간

비율에 대한 신뢰구간을 구하는 것은 우리가 모르는 모비율 p를 추정하기 위해 표본비율 \(\hat p\)의 신뢰구간을 구하는 것과 같다.

비율 신뢰구간 공식

\(N(p,\sqrt{\frac{p(1-p)}{n}})\)을 구하였고 표본이 정규분포 조건을 만족했다면

\[\hat p \pm z^*\sqrt{\frac{p^(1-p^)}{n}}\]

예시

견과류를 제조하여 판매하는 A회사의 제품을 조사하였다. 혼합된 견과류 100개 중 땅콩은 52개이다. 중심극한정리를 적용할 수 있을 만큼 표본 크기는 충분히 큰지 확인한 후에 땅콩 비율에 대한 95% 신뢰구간을 구하고 해석하라. 중심극한정리로 구한 신뢰구간과 붓스트랩 분포로 구한 신뢰구간 (0.420, 0.620)을 비교하라.

image

중심극한정리로 구한 신뢰구간과 붓스트랩 분포로 구한 신뢰구간이 거의 일치한다.

표본 크기 결정하기.

연구를 설계할 때 “표본 크기는 얼마나 커야 할까?”라는 공통적인 질문이 발생한다.

고려사항

  • 추정치가 얼마나 정확하길 바라는가? 즉 원하는 오차한계(오차범위)는 무엇인가?
  • 원하는 신뢰수준은 무엇인가?

오차한계의 공식

\[오차한계 = z^*\sqrt{\frac{p^(1-p^)}{n}}\]

표본 크기 n을 크게 하면 오차한계는 원하는 만큼 작게 할 수 있다.

\[n = (\frac{z^*}{오차한계})^2 \hat p(1-\hat p)\]

표본을 아직 만들지 않았기 때문에 \(hat p\)값이 없다. 따라서 위 공식을 바로 사용할 수 없다. 이 문제를 위해 다음 두 가지 방법 중 하나로 해결한다.

  • 표본 비율 \(hat p\)을 합리적으로 추정한다. 이 값을 \(\tilde p\)(틸더라고 읽음)라고 표기함.
  • 합리적인 추정이 가능하지 않다면 \(\tilde p = 0.5\)를 사용한다.

오차한계를 고려한 표본크기 공식 간단화

보통 95% 신뢰수준에서 z = 1.96이므로 대략 z = 2이다. 표본 비율 추정치는 보통 $$\tilde p = 0.5$ $이다. 이를 통해 간단화 시키면

\[n≈(\frac{1}{오차한계})^2\]

표본크기를 결정할 때 계산한 표본 크기에 소숫점이 있다면 큰 정수로 올림하여 표본 크기를 결정한다.

비율에 대한 가설검증

모비율에 대한 가설을 검증할 때 영가설을 보통 \(H_0 : p = p_0\)이다. 여기서 \(p_0\)는 비율의 특정 수치 값이다. 표준오차를 \(SE\)로 표기할 때, 표준화한 검증 통계량 \(z\)는

\[z = \frac{\hat p - p_0}{SE}\]

이다. 이때 가설 검증에서 표준오차를 계산할 때 \(p\) 대신에 \(p_0\)를 사용한다.

\[SE = \sqrt{\frac{p_0(1-p_0)}{n}}\]

가설검증 방법

영가설 \(H_0 : p = p_0\)에 대한 표준화한 검증 통계량은

\[z = \frac{\hat p - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\]

이다. \(\hat p\)는 표본 크기 n의 무작위 표본에서 계산한 표본 비율이다. 위 표본이 \(np_0 \geq 10\)이고 \(n(1-p_0) \geq 10\)가 성립할 만큼 크다면 p값은 표준정규분포에서 계산한다.

예시

무작위 추출한 340명 미국 중학생에게 수동자동차와 자율주행차 중 어느 것을 더 선호하는지 물었다. 59%는 수동자동차 41%는 자율주행차를 선호한다고 답했다. 유의수준 5%에서 중학생 중 자기가 운전하는 자동차를 선호하는 비율은 50%이상이라고 할 수 있는지 검증하라.

  • 가설

\(H_0 : p = 0.5\) \(H_\alpha : p > 0.5\)

영가설에서 설정한 비율 \(p_0 = 0.5\)이고 표본 비율 \(\hat p = 0.59\) 표본 크기 \(n = 340\)은 중심극한정리를 적용할 만큼 충분히 크다.

image

대안가설이 \(H_\alpha > 0.5\) 이므로 오른쪽 꼬리검증이다. 표준정규분포에서 3.319의 오른쪽 꼬리 면적의 비율이 p값이다. (한쪽 비율만) 툴을 통해 계산한 p값은 0.00045이다. p값이 유의 수준보다 자기 때문에 영가설을 기각한다. 따라서 중학생 중 자기가 운전하는 자동차를 선호하는 비율은 50% 이상이라는 강한 증거를 얻었다.

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기