Chap 3. 카이-제곱 검증 _ 3.2 범주형 변수 두 개의 연관성 검증

Date:     Updated:

카테고리:

태그:

범주형 변수 두 개의 연관성 검증

범주형 변수 두 개 사이에 연관이 있는지 조사하기 위한 검증은 연관성 검증 방법이다. 2차원 표를 만들어 연관이 실제로 존재하는지 아니면 우연에 의한 것인지 공식적으로 검증한다.

하나의 범주형 변수의 두 개 이상의 범주를 가질 때, 범주의 비율이 설정한 비율과 맞는지 아닌지에 대한 가설 검증은 카이-제곱 적합도 검증 방법을 사용하였다. 헷갈리지 않도록한다.

예시

“진정한 사랑은 단 하나인가?”라는 질문에 대한 답을 빈도표로 체크하였다.

image

질문에 대한 응답의 범주별 표본 비율응 각 범주를 표본 크기로 나눈 값이다.

표본 전체 응답 비율

  • “동의한다” 비율 : 735/2625 = 0.28
  • “동의하지 않는다” 비율 : 1812/2625 = 0.69
  • “모른다” 비율 78/2625 = 0.03

성별에 따른 응답 비율

  • 남성 동의 비율 : 372/1213 = 0.307
  • 여성 동의 비율 : 363/1412 = 0.257

표본에서 남성의 비율과 여성의 비율 차이로 모집단에서 남녀별고 다르다고 결론을 내릴만큼 유의한가? 비율 차이 검증을 사용할 수 있지만 다른 두 개의 응답(동의하지 않는다, 모른다)는 무시해야한다. 적합도 검증처럼 모든 범주를 동시에 검증한 것처럼 위 표의 모든 정보를 사용하여 성별과 응답 사이에 연관성이 있는지 평가하고 싶다. 카이-제곱 연관성 검증을 사용한다.

범주형 변수 2개가 서로 연관이 있는지 알고 싶을 때 사용

영가설과 대안가설

대부분의 가설은 모집단에서 하나 또는 그 이상의 모수에 대한 구체적인 주장이었다. 하지만 연관성 검증은 모수가 아닌 문장으로 표현한다.

\(H_0\) : 응답(변수1)과 성별(변수2)은 연관이 없다.
\(H_\alpha\) : 응답(변수1)과 성별(변수2)은 연관이 있다.

영가설은 늘 그렇든 기존의 패러다임, 변화가 없음 등의 믿음을 반영한다. 반면 대안가설은 연구자가 원하는 ‘차이가 있음, 기존과 다름’을 반영한다.

2차원 표의 기대빈도

두 범주형 변수 사이의 연관성에 대한 검정도 기대빈도와 과측빈도를 비교하는 방법을 사용한다. 기대빈도는 영가설이 참이라는 가정 하에서 계산한다. 영가설은 “연관이 없다”이므로, 전체 응답 분포와 남성과 여성의 각 응답 분포와 같다는 가정 하에서 기대빈도를 계산한다. 단, 기존 빈도표의 행과 열의 합계는 동일하게 유지해야 한다.

영가설이 참이라는 가정 하에 표본 전체에서 동의한 비율은 28%이므로 남성과 여성은 똑같이 28% 동일한다고 기대한다. 같은 방법으로 빈도표에 기대빈도를 채운다.

예) 동의한 남성의 기대빈도 \(\rightarrow \frac{735}{2625} \cdot 1213 = 339.6\)

이걸 약간 공식화 한다면

\[기대빈도 = \frac{행합계 \cdot 열합계}{표본크기}\]

굳이 저 공식은 안 외워도 됨

image

계산한 기대빈도 빈도표

연관성에 대한 카이-제곱 검증

기대빈도와 관측빈도가 얼마나 다른지 평가한다. 적합도 검정과 마찬가지로 카이-제곱 통계량을 사용한다.

\[X^2 = \sum\frac{(관측빈도-기대빈도)^2}{기대빈도}\]

모든 셀의 차이를 덧샘한다.

image

카이-제곱 통계량을 구하였다. 영가설을 검증하기 위해 p값을 구하려면 카이-제곱 분포를 찾아야한다. 그러기 위해선 자유도를 알아야한다. 연관성 검증의 자유도는 아래와 같이 구한다.

\[자유도 = (행 범주의 개수 - 1)(열 범주의 개수 -1)\]

위 가설의 경우 행에 3개의 범주와 열에 2개의 범주를 가진 2차원 이기 때문에 자유도는 2에 불과하다.

자유도 2인 카이-제곱 분포에서 통계량 값 7.99보다 큰 분포의 면적 비율은 0.018이다. 이 p값은 유의수준 5% 보다 작기 때문에 영가설을 기각한다. 성별과 응답 사이에 연관이 있다.

요약

연관성에 대한 카이-제곱 검증

가설

\(H_0\) : 변수 A와 변수 B는 연관이 없다.
\(H_\alpha\) : 변수 A와 변수 B는 연관이 있다.

기대빈도 계산

\[기대빈도 = \frac{행합계 \cdot 열합계}{표본크기}\]

카이-제곱 통계량 계산

\[X^2 = \sum \frac{(관측빈도 - 기대빈도)^2}{기대빈도}\]

자유도

\[(r-1)(c-1)\]

검증

카이-제곱 통계량을 자유도에 따른 카이-제곱 분포에 대입하여 통계량 오른쪽의 면적을 구하여 p값을 찾는다. 유의수준에 따라 영가설을 검증한다.

Stat-basic 카테고리 내 다른 글 보러가기

댓글 남기기