Chap 3. 카이-제곱 검증 _ 3.1 범주형 변수 하나에 대한 적합도 검증
카테고리: Stat-basic
태그: Stat-basic Statistics
범주형 변수 하나에 대한 적합도 검증
범주형 변수의 범주가 하나일 때 비율을 검증하는 방법을 지난 게시물에 작성하였다. 링크 범주형 변수가 두 개 이상의 범주를 가질 때, 범주의 비율에 대한 가설 검증은 카이-제곱 검증법을 사용한다.
예시
객관식 5지 선다형 시험에서 각 선택지가 정답이 될 가능성은 무엇인가? 아래 데이터는 무작위로 추출한 400개의 객관식 문제에서 정답의 빈도를 보여준다.
상대빈도
상대빈도는 실제 데이터 상 관측된 각 범주의 백분위수이다. 각 선택지의 상대빈도는 \(\hat p_a = 85/400 = 0.2125, \hat p_b = 90/400 = 0.225, \hat p_c = 79/400 = 0.1975, \hat p_d = 78/400 = 0.195, \hat p_e = 68/400 = 0.170\)이다.
기대빈도
기대빈도는 영가설에 기반하여 기대하고 있는 각 범주의 백분위수이다. 혹은 영가설에서 설정한 (기대)비율과 표본크기를 곱한 값이다. 모든 선택지가 정받이 될 가능성이 같다면 각각의 비율은 0.20이다. \(p_a = p_b = p_c = p_d = p_e = 0.20\)이다.
\(H_0 : p_a = 0.20\)과 같이 범주 하나의 비율만 검증하는 것은 비율 검증 방법을 사용하면 된다. 하지만 범주가 여러개 일때는 모든 범주의 비율에 대한 검증을 하는 것이다.
영가설과 대안가설
영가설에서 각 범주의 비율 값은 사전에 정해진다(기대빈도). 대안가설은 이들 중 최소한 하나는 틀리다는 것이다.
\(H_0 : p_a = p_b = p_c = p_d = p_e = 0.20\)
\(H_\alpha : 어떤 p_i \neq 0.20\)
대안가설에서 어떤 범주의 비율이 0.2와 다른지 구체적으로 명시하지 않았다. 대안가설은 최소한 어떤 범주 하나의 비율이 영가설의 주장과 다르다는 것이다. 또한, 영가설의 모든 비율이 같을 필요는 없다.
검증을 통해 영가설이 사실이더라도 기대빈도와 관측빈도가 정확하게 일치하기는 어렵다.
카이-제곱 통계량
표본의 관측빈도와 영가설의 기대빈도를 비교하는 통계량은 카이-제곱 통계량이다. 이 통계량은 각 범주의 관측빈도와 기대빈도를 통합한 값이어야한다.
카이-제곱 통계량은 그리스 문지 \(X^2\)으로 표기한다. 게산하는 공식은 아래와 같다.
\[X^2 = \sum\frac{(관측빈도 - 기대빈도)^2}{기대빈도}\]예시
아래와 같은 데이터를 통해 카이-제곱 통계량을 계산한다.
계산
관측빈도와 기대빈도의 차가 20일 때, 기대빈도가 30이라면 편차가 크게 생각되지만, 기대빈도가 3000일 때는 편차가 작게 느껴진다. 카이-제곱 통계량 값이 크면 표본이 영가설과 일치하지 않는다는 것을 의미한다.
카이-제곱 분포
카이-제곱 통계량의 분포는 정규분포를 근사하지 않는다. 카이-제곱 분포는 오른쪽 꼬리가 매우 긴 비대칭 분포이며 0보다 작은 값은 없다.
카이-제곱 분포는 t-분포와 유사하게 자유도를 갖는다. 따라서 자유도에 따라 카이-제곱 분포가 정해져 있다. 범주 수가 k일 때 자유도는 k-1이다.
카이 제곱 분포를 이용하여 가설검증을 할 때 자유도k-1인 카이-제곱 분포를 이용하여 카이-제곱 통계량보다 더 큰쪽(오른쪽)의 면적 비율을 계산한다. 카이-제곱 통계량 값이 오른쪽으로 멀리 떨어져 있을 수록 영가설을 기각할 확률이 높다.
중심극한정리처럼 카이-제곱 분포의 근사 정도는 표본 크기가 클수록 좋아진다. 일반적으로 각 셀의 기대빈도가 5이상일 때 카이-제곱 분포로 근사한다.
카이-제곱 적합도 검증
범주형인 하나의 변수에 대해,
정의 : 범주형인 하나의 변수에 대해, 이 변수가 우리가 기대하는 분포를 따르는지 아닌지 검증할 때 사용한다.
범주형 변수에서 k개의 범주에 대한 비율 검증의 가설은 다음과 같다.
\(H_0 :\) 각 셀의 비율 값 \(p_i\) 설정
\(H_\alpha :\) 최소한 하나의 \(p_i\)는 영가설의 설정값과 다르다.
- \(n\)이 표본 크기, \(p_i\)는 영가설에서 설정한 비율 값일 때 각 셀의 기대빈도는 \(n \cdot p_i\)이다.
- 카이-제곱 검증 통계량 값을 계산한다.
- 자유도 k-1인 카이-제곱 분포에서 카이-제곱 통계량보다 큰 쪽의 면적 비율이 p-값이다.
카이-제곱 통계량 계산 시 모든 범주가 포함됐는지 확인, 영가설에서 설정한 비율의 합은 항상 1이되어야한다.
예시
어느 그룹의 인종 분포가 전체 그룹의 인종 분포와 다른지 검증하라.
- 가설
\(H_0 : p_w = 0.54, p_b = 0.18, p_h = 0.12, p_a = 0.15, p_o = 0.01\)
\(H_\alpha : 영가설에서 설정한 어느 하나는 같지 않다.\)
- 기대빈도
- 카이-제곱 통계량 계산
- 해설
자유도가 4인 카이-제곱 분포에서 통계량 값이 357.6보다 큰 면적의 비율은 0에 수렴한다. 따라서 영가설을 기각한다. 해당 그룹의 분포가 전체 그룹의 인종 분포와는 다르다.
어느 인종의 비율이 더 많고 적은지는 모른다. 그것을 알고 싶다면 관측빈도와 기대빈도를 비교하라.
두개의 범주에 대한 적합도 검증
동전을 튕겼을 때 앞면과 뒷면이 나올 확률이 같은지 실험했다. 200번 중 앞면은 84번, 뒷면은 116번 나왔다. 앞면, 뒷면이 나올 확률이 같은지 두가지 방법으로 검증하라.
1_ 정규분포 근사를 이용한다. 2_ 카이-제곱 적합도 검증을 이용한다.
정규분포 근사 방법
동전의 앞면이 나올 비율을 \(p\)로 표기한다.
\(H_0 : p = 0.5\)
\(H_\alpha : p \neq 0.5\)
표본 비율 \(\hat p = 0.42\)이다.
양측검증 결과 p값은 2x0.0118 = 0.0236으로 영가설을 기각한다.
카이-제곱 적합도 검증
\(H_0 : p_h = p_t = o.5\)
\(H_\alpha : p_h \neq 0.5 또는 p_t \neq 0.5\)
각 셀의 기대빈도는 200x0.5 = 100이다.
카이제곱 통계량 계산
자유도 1인 카이-제곱 분포에서 통계량 값 5.12보다 큰 쪽의 면적의 비율인 0.0236이 p값이다. 따라서 영가설을 기각한다.
두 개의 p값이 같다. 이것은 정규분포에 기초한 양측검증과 두 개의 범주에 대한 카이-제곱 검증이 동일하다는 것이다.
혹여 표본 크기가 작아서 카이-제곱 분포를 근사할 수 없다면 임의화 분포를 이용하여 검증할 수 있다는 것을 알아두라.
댓글 남기기