Chap 2. 평균과 비율에 대한 추론 _ 2.2 평균에 대한 추론
카테고리: Stat-basic
태그: Stat-basic Statistics
평균의 분포
양적 자료에서 관심 있는 모수는 종종 모집단 평균 μ이다. 표본 평균 \(\bar x\)에도 중심극한정리는 적용이 된다. 분포의 중심은 모집단 평균 μ이고 표준편차가 σ인 모집단에서 표본 크기가 n인 무작위 표본에서 표본 평균 \(\bar x\)의 표준오차는
\[SE = \frac{σ}{\sqrt{n}}\]이다. 표본 평균 분포의 중심은 μ이고 표준편차는 \(\frac{σ}{\sqrt{n}}\)이다. 표본 크기가 충분히 클 때, 분포는 정규분포가 된다. 대략 표본 크기가 최소 30이상이어야 한다.
표본 평균에 대한 중심극한정리
평균이 μ이고 표준편차가 σ인 모집단에서, 표본 크기 n이 대략 30이상일때, 표본 평균의 분포는 근사적으로 평균이 μ이고 표준편차가 \(\frac{σ}{\sqrt{n}}\)인 정규분포를 따른다.
하지만, \(N(μ, \frac{σ}{\sqrt{n}})\)를 바로 사용할 수 없는 두가지 이유가 있다. 첫째, 모집단의 표준편차 σ를 모른다. 위 문제의 해결 방법은 표본의 표준편차 s를 σ대신 사용할 수 있다. 따라서 표준오차 추정
아래와 같다.
둘째, 추정된 표준오차에 기반하여 표본 평균을 표준화한 통계량의 분포는 더이상 표준정규분포가 아니다. 추정된 표준오차에 기반한 분포는 t분포이다.
t-분포
표본 평균을 통해 모수를 추정할 때 모집단의 표준편차 σ를 모르기 때문에 표본의 표준편차 s를 사용하여 표준오차를 추정한 뒤 표본 평균의 분포를 만든다. \(\frac{s}{\sqrt{n}}\)를 이용하여 만든 이 분포를 우린 t분포라고 한다.
t분포는 표본 크기에 의존한다는 것을 명심하라. 표본크기가 클수록 표본의 표준편차는 모집단의 표준편차 σ에 가까워진다. 이는 \(\frac{s}{\sqrt{n}}\)를 사용하여 표준화 할 때 분포가 점점 표준정규분포와 가까워진다는 것을 의미한다. 표본 크기는 t분포에서 자유도라 불리는 매개변수와 관련 있다.
t-분포의 자유도
t분포의 중심은 모집단 평균 μ이고 표준오차(SE)는 \(\frac{s}{\sqrt{n}}이다. 표본 평균을 표준화하면 자유도\)n-1$$인 t분포를 근사적으로 따른다.
자유도란 말그대로 ‘자유스러운 정도’이다. 표본크기가 n인 표본에서 표본평균 \(\bar x\)가 정해져 있다면 표본값 중 ‘자유롭게 변할 수 있는’것은 n-1개의 표본이다. 예를 들어, 3개의 시험을 봤는데 평균을 80점으로 추정한다. 2개의 시험에서 각각 70점, 90점의 성적을 받았다면 필히 나머지 1개의 성적은 80이어야 한다. 이처럼 표본수가 3개이지만 자유롭게 변할 수 있는 것은 2(3-1)개이다.
t분포와 정규분포는 모양이 매우 비슷하다. t분포는 자유도가 작을 때 꼬리부분이 표준정규분포 보다 조금 두껍다. 표본 크기가 작다면(n<30), 모집단이 근사적인 정규분포일 때 t분포 근사 정도가 좋다. (어차피 추정하려는 모집단이 정규분포와 근사하니까.) 표본크기가 커질수록 t분포는 점점 표준 정규분포와 가까워진다.
t-분포를 사용하기 위한 조건
표본 크기가 작을 때 t분포를 사용하려면 모집단이 근사적인 정규분포를 따라야한다. 데이터가 대칭이고 이상점이 없어야한다. 표본 크기가 클 때는 중심극한정리가 성립하므로 모집단 분포를 고려할 필요가 없다. 표본 크기가 애매한 20~50개인 경우 극단적인 이상점, 비대칭을 발견하지 않다면 사용한다.
t-분포 사용방법
t분포를 사용하기 위해 표본을 뽑는다. 표본 크기에 따른 자유도를 구한뒤 해당 t분포를 찾아 원하는 신뢰수준에 맞는 t-통계량을 찾거나 t-통계량에 맞는 면적(p값)을 구한다.
평균에 대한 신뢰구간
t분포를 이용한 평균에 대한 신뢰구간을 구하는 방법은 정규분포를 이용한 신뢰구간을 구하는 공식과 비슷하다. 위에서 쓴 것과 같이 표본 통계량\(\bar x\)와 표본 표준편차를 이용한 표본오차를 통해 얻은 t 통계량을 통해 신뢰구간을 추정하면 된다.
t-분포를 이용한 평균에 대한 신뢰구간
표본 크기가 n인 무작위 표본에서 n-1 자유도의 t분포를 구한다. 신뢰구간 공식은 표본 통계량(표본 평균)에 오차범위(표본 표준편차를 표본 크기의 제곱근으로 나눈 값)를 더하고 뺀 값이다.
\[\bar x \pm t^* * \frac{s}{\sqrt{n}}\]여기서 \(t^*\)는 표준정규분포상 z-검정통계량과 비슷한 개념이다. 단, \(t^*\)가 \(z^*\)보다 조금 큰 값임을 주목하라. 이는 표본의 표준편차 s로 표준오차를 추정하여 불확실성이 높아졌기 때문이다. 자유도가 증가하면 \(t^*\)는 \(z^*\)에 가까워진다.
신뢰구간으로 평균을 추정할 때 필요한 표본 크기 결정
평균 추정 연구에 있어도 표본 크기를 결정하는 기준이 필요하다. 3가지 기준이 있다.
- 추정치가 어느 정도 정확하기 바라는가? 즉 오차범위는 얼마인가?
- 구간을 몇 퍼센트 신뢰하길 원하는가?
- 모집단의 변동은 얼마나 되는가?
신뢰구간 공식으로부터 오차범위는 다음과 같다.
\[ME = t^* \frac{s}{\sqrt{n}}\]원하는 오차범위를 지정했다면 아래 식에 대입하여 표본 크기 n을 구한다.
\[n = (\frac{t^* * s}{ME})^2\]위 공식을 바로 사용하기엔 두가지 문제있다
첫 번째, \(t^*\)의 자유도는 표본 크기 n에 의존한다.(따라서 표본크기를 구하지 않으면 \(t^*\)를 모른다.) 두 번째, 표준편차 s는 표본에서 계산하는 것인데 표본 크기를 정하지 않았기 때문에 표본이 없다.
문제 해결 방안
첫 번째 문제의 해결책은 \(t^*\) 대신에 \(z^*\)를 사용한 것이다. 표본 크기가 증가함에 따라 \(t^*\)값은 \(z^*\)로 수렴한다. 오차범위를 얻기 위해 필요한 표본크기를 대략적으로 추정하는 것이기 때문에 표본 크기가 아주 작지 않다면 \(t^*\)대신에 \(z^*\)를 사용한다.
두 번째 문제의 해결 방법은 모집단의 표준편차 σ를 합리적으로 추측하는 것이다. 이 추측값은 \(\tilde σ\)(시그마 틸더)라고 부르자. 4가지 방법중 하나로 \(\tilde σ\)를 추정한다.
- 선행 연구의 표준편차를 사용하거나 유사 표본으로부터 \(\tilde σ\)를 추정한다.
- 사전 조사로 작은 표본을 얻어 \(\tilde σ\)를 추정한다.
- 모집단에서 범위(최댓값 - 최솟값)를 추정한다. 범위를 4로 나눈 값을 \(\tilde σ\)로 사용한다. (대부분의 값들이 평균에서 두 배의 표준편차 안에 있을 것이라 가정)
- \(\tilde σ\)를 합리적으로 추측한다.
평균에 대한 가설검증
t-통계량을 구한 뒤 자유도 n-1인 t분포를 이용하여 p값을 구한다. t-통계량은 표준정규분포의 z-통계량을 공식과 비슷하다.
평균에 대한 t-검증
영가설 \(H_0 : μ = μ_0\) 검증
\[t = \frac{\bar x - μ_0}{^s/_\sqrt{n}}\]모집단의 분포가 정규분포와 비슷하다면(혹은 표본 크기가 크다면), 검증의 p-값은 자유도가 \(n-1\)인 t-분포에서 대안가설에 적절한 꼬리쪽(같지않다, 이상, 이하 등)에 적절한 꼬리쪽의 비율을 계산한다.
예시
한국 호수 53개의 알칼리성 값에 대한 실험이다. 표본 평균 37.5mg/L이고 표준편차 38.20이다. 이 표본이 모든 한국 호수의 평균 알칼리도가 35 mg/L보다 크다는 증거를 제공하는지 검증하라.
해답
표본 크기가 충분함으로 중심극한정리를 적용할 수 있다. 본 실험에 대한 가설을 세운다.
\(H_0 : μ = 35\) \(H_\alpha : μ > 35\)
t-통계량을 계산하면
이다. 자유도 53-1 = 52이고 자유도 52의 t분포에서 p값을 구하면 t-통계량 0.48보다 큰 쪽의 면적인 0.317이다.
p값 0.317은 상당히 큰 값이므로 한국 호수의 평균 알카리도가 35mg/L보다 크다는 증거를 발견하지 못했다.
댓글 남기기