Chap 2. 평균과 비율에 대한 추론 _ 2.2 평균에 대한 추론

Date: 2021.12.11 Updated: 2021.12.11

카테고리: Stat-basic

평균의 분포

양적 자료에서 관심 있는 모수는 종종 모집단 평균 μ이다. 표본 평균 $\bar x$에도 중심극한정리는 적용이 된다. 분포의 중심은 모집단 평균 μ이고 표준편차가 σ인 모집단에서 표본 크기가 n인 무작위 표본에서 표본 평균 $\bar x$의 표준오차는

\[SE = \frac{σ}{\sqrt{n}}\]

이다. 표본 평균 분포의 중심은 μ이고 표준편차는 $\frac{σ}{\sqrt{n}}$이다. 표본 크기가 충분히 클 때, 분포는 정규분포가 된다. 대략 표본 크기가 최소 30이상이어야 한다.

표본 평균에 대한 중심극한정리

평균이 μ이고 표준편차가 σ인 모집단에서, 표본 크기 n이 대략 30이상일때, 표본 평균의 분포는 근사적으로 평균이 μ이고 표준편차가 $\frac{σ}{\sqrt{n}}$인 정규분포를 따른다.

하지만, $N(μ, \frac{σ}{\sqrt{n}})$를 바로 사용할 수 없는 두가지 이유가 있다. 첫째, 모집단의 표준편차 σ를 모른다. 위 문제의 해결 방법은 표본의 표준편차 s를 σ대신 사용할 수 있다. 따라서 표준오차 추정아래와 같다.

\[SE = \frac{s}{\sqrt{n}}\]

둘째, 추정된 표준오차에 기반하여 표본 평균을 표준화한 통계량의 분포는 더이상 표준정규분포가 아니다. 추정된 표준오차에 기반한 분포는 t분포이다.

t-분포

표본 평균을 통해 모수를 추정할 때 모집단의 표준편차 σ를 모르기 때문에 표본의 표준편차 s를 사용하여 표준오차를 추정한 뒤 표본 평균의 분포를 만든다. $\frac{s}{\sqrt{n}}$를 이용하여 만든 이 분포를 우린 t분포라고 한다.

t분포는 표본 크기에 의존한다는 것을 명심하라. 표본크기가 클수록 표본의 표준편차는 모집단의 표준편차 σ에 가까워진다. 이는 $\frac{s}{\sqrt{n}}$를 사용하여 표준화 할 때 분포가 점점 표준정규분포와 가까워진다는 것을 의미한다. 표본 크기는 t분포에서 자유도라 불리는 매개변수와 관련 있다.

t-분포의 자유도

t분포의 중심은 모집단 평균 μ이고 표준오차(SE)는 $\frac{s}{\sqrt{n}}이다. 표본 평균을 표준화하면 자유도$n-1$$인 t분포를 근사적으로 따른다.

자유도란 말그대로 ‘자유스러운 정도’이다. 표본크기가 n인 표본에서 표본평균 $\bar x$가 정해져 있다면 표본값 중 ‘자유롭게 변할 수 있는’것은 n-1개의 표본이다. 예를 들어, 3개의 시험을 봤는데 평균을 80점으로 추정한다. 2개의 시험에서 각각 70점, 90점의 성적을 받았다면 필히 나머지 1개의 성적은 80이어야 한다. 이처럼 표본수가 3개이지만 자유롭게 변할 수 있는 것은 2(3-1)개이다.

t분포와 정규분포는 모양이 매우 비슷하다. t분포는 자유도가 작을 때 꼬리부분이 표준정규분포 보다 조금 두껍다. 표본 크기가 작다면(n<30), 모집단이 근사적인 정규분포일 때 t분포 근사 정도가 좋다. (어차피 추정하려는 모집단이 정규분포와 근사하니까.) 표본크기가 커질수록 t분포는 점점 표준 정규분포와 가까워진다.

t-분포를 사용하기 위한 조건

표본 크기가 작을 때 t분포를 사용하려면 모집단이 근사적인 정규분포를 따라야한다. 데이터가 대칭이고 이상점이 없어야한다. 표본 크기가 클 때는 중심극한정리가 성립하므로 모집단 분포를 고려할 필요가 없다. 표본 크기가 애매한 20~50개인 경우 극단적인 이상점, 비대칭을 발견하지 않다면 사용한다.

t-분포 사용방법

t분포를 사용하기 위해 표본을 뽑는다. 표본 크기에 따른 자유도를 구한뒤 해당 t분포를 찾아 원하는 신뢰수준에 맞는 t-통계량을 찾거나 t-통계량에 맞는 면적(p값)을 구한다.

평균에 대한 신뢰구간

t분포를 이용한 평균에 대한 신뢰구간을 구하는 방법은 정규분포를 이용한 신뢰구간을 구하는 공식과 비슷하다. 위에서 쓴 것과 같이 표본 통계량$\bar x$와 표본 표준편차를 이용한 표본오차를 통해 얻은 t 통계량을 통해 신뢰구간을 추정하면 된다.

t-분포를 이용한 평균에 대한 신뢰구간

표본 크기가 n인 무작위 표본에서 n-1 자유도의 t분포를 구한다. 신뢰구간 공식은 표본 통계량(표본 평균)에 오차범위(표본 표준편차를 표본 크기의 제곱근으로 나눈 값)를 더하고 뺀 값이다.

\[\bar x \pm t^* * \frac{s}{\sqrt{n}}\]

여기서 $t^*$는 표준정규분포상 z-검정통계량과 비슷한 개념이다. 단, $t^*$가 $z^*$보다 조금 큰 값임을 주목하라. 이는 표본의 표준편차 s로 표준오차를 추정하여 불확실성이 높아졌기 때문이다. 자유도가 증가하면 $t^*$는 $z^*$에 가까워진다.

신뢰구간으로 평균을 추정할 때 필요한 표본 크기 결정

평균 추정 연구에 있어도 표본 크기를 결정하는 기준이 필요하다. 3가지 기준이 있다.

추정치가 어느 정도 정확하기 바라는가? 즉 오차범위는 얼마인가?
구간을 몇 퍼센트 신뢰하길 원하는가?
모집단의 변동은 얼마나 되는가?

신뢰구간 공식으로부터 오차범위는 다음과 같다.

\[ME = t^* \frac{s}{\sqrt{n}}\]

원하는 오차범위를 지정했다면 아래 식에 대입하여 표본 크기 n을 구한다.

\[n = (\frac{t^* * s}{ME})^2\]

위 공식을 바로 사용하기엔 두가지 문제있다

첫 번째, $t^*$의 자유도는 표본 크기 n에 의존한다.(따라서 표본크기를 구하지 않으면 $t^*$를 모른다.) 두 번째, 표준편차 s는 표본에서 계산하는 것인데 표본 크기를 정하지 않았기 때문에 표본이 없다.

문제 해결 방안

첫 번째 문제의 해결책은 $t^*$ 대신에 $z^*$를 사용한 것이다. 표본 크기가 증가함에 따라 $t^*$값은 $z^*$로 수렴한다. 오차범위를 얻기 위해 필요한 표본크기를 대략적으로 추정하는 것이기 때문에 표본 크기가 아주 작지 않다면 $t^*$대신에 $z^*$를 사용한다.

두 번째 문제의 해결 방법은 모집단의 표준편차 σ를 합리적으로 추측하는 것이다. 이 추측값은 $\tilde σ$(시그마 틸더)라고 부르자. 4가지 방법중 하나로 $\tilde σ$를 추정한다.

선행 연구의 표준편차를 사용하거나 유사 표본으로부터 $\tilde σ$를 추정한다.
사전 조사로 작은 표본을 얻어 $\tilde σ$를 추정한다.
모집단에서 범위(최댓값 - 최솟값)를 추정한다. 범위를 4로 나눈 값을 $\tilde σ$로 사용한다. (대부분의 값들이 평균에서 두 배의 표준편차 안에 있을 것이라 가정)
$\tilde σ$를 합리적으로 추측한다.

평균에 대한 가설검증

t-통계량을 구한 뒤 자유도 n-1인 t분포를 이용하여 p값을 구한다. t-통계량은 표준정규분포의 z-통계량을 공식과 비슷하다.

평균에 대한 t-검증

영가설 $H_0 : μ = μ_0$ 검증

\[t = \frac{\bar x - μ_0}{^s/_\sqrt{n}}\]

모집단의 분포가 정규분포와 비슷하다면(혹은 표본 크기가 크다면), 검증의 p-값은 자유도가 $n-1$인 t-분포에서 대안가설에 적절한 꼬리쪽(같지않다, 이상, 이하 등)에 적절한 꼬리쪽의 비율을 계산한다.

예시

한국 호수 53개의 알칼리성 값에 대한 실험이다. 표본 평균 37.5mg/L이고 표준편차 38.20이다. 이 표본이 모든 한국 호수의 평균 알칼리도가 35 mg/L보다 크다는 증거를 제공하는지 검증하라.

해답

표본 크기가 충분함으로 중심극한정리를 적용할 수 있다. 본 실험에 대한 가설을 세운다.

$H_0 : μ = 35$ $H_\alpha : μ > 35$

t-통계량을 계산하면

이다. 자유도 53-1 = 52이고 자유도 52의 t분포에서 p값을 구하면 t-통계량 0.48보다 큰 쪽의 면적인 0.317이다.

p값 0.317은 상당히 큰 값이므로 한국 호수의 평균 알카리도가 35mg/L보다 크다는 증거를 발견하지 못했다.

꿈 양봉자🍯