Chap 1. 정규분포 근사 _ 1.2 정규분포 신뢰구간

Date:     Updated:

카테고리:

태그:

이번 게시물에서는 붓스트랩 분포를 정규분포로 근사하여 신뢰구간을 만드는 방법을 작성할 것이다. 95%를 포함하는 구간은 결국 통계량의 크기순으로 늘어놓고 (분포를 만든 뒤) 가운데 95%를 포함하는 구간을 신뢰구간이라고 한다. 정규분포 또한 같은 아이디어를 사용한다.

붓스트랩이란

표본에서 추가적으로 표본을 복원 추출(중복허용)하고 각 표본에 대한 통계량을 다시 계산하는 것.

image

  • 하는 방법

붓스트랩을 하는 방법은 N개의 샘플을 가지고 1000개의 붓스트랩을 만들고자 하면, 복원 추출을 N번 실행하여 (샘플에서 한개 뽑고 한개 넣고) 새로운 표본을 만드는 작업을 1000번 반복하면 된다

  • 사용하는 이유

붓스트랩을 사용하면 애초에 한 개 밖에 없었던 표본을 n개 있는 것과 같은 효과를 만든다. 따라서 평균과 분산 등의 오차가 줄어든다.

붓스트랩으로 신뢰구간

붓스트랩 샘플링 방법으로 만든 표본으로 표본분포를 만든 뒤 분포의 가운데 95%(신뢰수준)을 포함하는 신뢰구간을 구하면 된다.

구하는 방법은 StatKey, R 그리고 Python등의 툴을 사용하면 된다.

정규분포 근사를 이용한 신뢰구간

붓스트랩 분포 모양은 정규분포와 매우 비슷하다 (종모양). 중심극한정리를 통해 붓스트랩의 크기가 크면 정규분포로 근사할 수 있다. 따라서 붓스트랩의 평균과 표준오차를 정규분포의 평균, 표준편차로 근사하여 분포를 만들어 가운데를 포함한 신뢰수준을 넣어 신뢰구간을 구한다.

표준정규분포를 이용한 신뢰구간

표준정규분포를 이용한 신뢰구간을 구하는 방법도 위와 같이 프로그램 툴을 사용하면 쉽고 빠르게 구할 수 있지만 공식이 존재한다. 모집단의 평균과 분산을 알고 있을 때 아래와 같은 공식을 통해 신뢰구간을 구할 수 있다.

공식

\[표본 통계량±z∗⋅표준오차(SE)\]

위 공식에서 z는 검정통계량으로 이전 게시물에서 표준화에 필요한 척도이다.

표준정규분포 상 신뢰구간에 구할때 많이 쓰이는 신뢰구간 90%, 95%, 99%의 검정통계량은 항상 일정하니 외워둔다.

신뢰수준 값 90% = 1.645 95% = 1.96 99% = 2.58

가설검증 시 z값 구하는 방법

\[Z= \frac{표본통계량 - 영가설의 모수값}{표준오차}\]

현실에서는 모집단의 정확한 평균과 표준편차를 알아내기 어렵다 때문에 거의 대부분이 가설을 세우고 추정치를 통해서 통계적으로 유의미한 값인지, 가설은 맞는지 검증을 한다. 때문에 이전장의 z 검정량 공식 보다는 위의 공식을 더 많이 활용하는 경우가 많다. 알아두기!

예시

  • 표본의 평균과 표준오차를 알았을 경우. N(29.11,0.915)

image

  • 표본비율 차이 (두 표본 사이에 차이가 있는가?)
\[p^2015−p^2013= 0.15 - 0.11 = 0.04 , 표준오차 = 0.01\]

image

해석 = 2013년보다 2015년에 온라인 데이트를 한 성인의 비율은 0.014에서 0.066 사이 높아졌다는 것을 99% 신뢰한다.

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기