Chap 1. 정규분포 근사 _ 1.1 정규분포 가설검증

Date:     Updated:

카테고리:

태그:

정규분포 (normal distribution)

모든 정규분포의 모양은 같다. 다른 것은 평균표준편차이다. 평균 μ는 분포의 중심이고, 표준편차 σ는 분포의 퍼진 정도이다. 따라서 평균과 표준편차만 알면 정규분포의 모든것을 알 수 있다.

image

표준정규분포(standard normal distribution)

모든 정규분포는 모양은 같지만 수평 축의 척도만 다르다. 정규분포의 척도를 표준정규분포의 척도로 바꾸어 확률을 구할 수 있다. 표준정규분포는 평균이 0, 표준편차가 1인 정규분포이며 N(0, 1) 로 표기한다. 표준정규분포에서 수평 척도의 값은 Z로 표기한다.

X가 N(μ, σ)의 척도에서 값일 때, X에서 평균 μ를 빼고 표준편차 σ로 나눈 값이 표준정규분포의 척도에서 값 Z이다.

\[Z= \frac{X-μ}{σ}\]

이렇게 얻은 값을 z-점수라고 부른다. X가 평균에서 표준편차 단위로 얼마나 떨어져 있는지 측정한 값이 z-점수이다.

검증 통계량은 해당 데이터가 분포상 어디에 위치하는지 알려고 구하는 경우가 많다. 통계량을 통해 p값을 주로 찾는다.

중심극한정리(central limit theorem)

표집 분포, 붓스트랩 분포, 임의화 분포 중 많은 것이 정규분포를 따르는 것은 우연이 아니다. 통계학 이론은 표본의 크기가 충분히 클 때 평균, 비율, 평균 차이, 비율 차이 등과 같은 많은 표본 통계량이 모두 정규분포를 따른다고 말한다. 이것이 통계학 이론에서 가장 중요한 중심극한정리이다.

** 표본 크기 n이 커질수록 표본 통계량의 분포는 점점 더 정규분포와 가까워진다 **

현대에 이르러 컴퓨터 처리기술 덕분에 데이터 전체를 근사적으로 추측할 필요가 사라지긴 했지만 여전히 효율과 비용 절감을 위해 표본을 적당히 추출하여 정규분포를 만드는 방법으로 신뢰구간을 구하고 가설검증을 함.

p값(유의 확률)

정의

귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다. 실험의 유의확률은 실험의 표본 공간에서 정의되는 확률변수로서, 0~1 사이의 값을 가진다.

가설검정

실험 혹은 관측값에 대한 가설을 증명할 때 사용한다.

  • 귀무가설 : 모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장. 풀어서 말하면 기존의 생각 혹은 값과 차이가 없다고 판단하는 가설. 실험자가 통계적 확률로 기각시켜야 할 가설.

  • 대립가설(영가설) : 귀무가설이 거짓이라면 대안적으로 참이 되는 가설. 통계적으로 귀무가설을 기각하여 얻을 수 있는 참으로 실험자가 증명하고자하는 가설.

따라서 p값은 표본들 중 유의수준 밖에 있는(극단적인 결과)가 있음을 증명할 수 있는 통계적 확률이다.

  • 유의수준 : 귀무가설의 기각 여부를 결정하는데 사용하는 기준이 되는 확률. 즉, 제 1종오류를 범할 확률의 허용 한계로 이 가설은 95% 믿을 수 있다. 라고 말한다면 유의수준 a = 0.05라고 말한다.

p값이 유의수준보다 적게 나오면 귀무가설을 기각할 수 있다.

구하는 방법

p값을 구하는 방법은 임의화 분포, 정규분포, 표준정규분포 등 해당 분포에 따른 검증 통계량을 구한뒤 그 통계량에 맞는 표 혹은 프로그램을 통해 구하도록한다.

** 정규분포로 구한 p값과 표준정규분포로 구한 p값은 항상 똑같다. 임의화 분포는 정규분포와 유사한 모양이며 p값은 거의 같다.

영가설이 같지 않다라면 양쪽 꼬리 p값 / 이상 or 이하다면 왼쪽 혹은 오른쪽 꼬리 p값이다.

기타

표준편차와 표준오차의 차이.

  • 표준편차 : 모집단(raw data)에 속한 다른 숫자들이 모평균과 차이나는 평균적인 정도.

  • 표준오차

    모집단의 크기가 매우 클 경우 랜덤하게 여러번 표본을 뽑게 된다. 이를 표본 집단이라 부르는데 이 표본집단들이 모집단을 추정하기에 적절한지 판단하기 위해 표준 오차라는 개념을 쓴다.

    모집단의 중요한 모수인 모평균을 추정하기 위해 표본의 평균값을 계산한다. 하지만 하나의 표본으로는 정확하지 않기에 여러개의 표본의 평균을 서로 비교하는데 <u>여러 표본평균들의 편차, 변동에 값을 표준오차라고 한다. </u>

  • 표준오차 공식

\[Standard error = \frac{Sx}{\sqrt{N}}\]

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기