Chap 4. 여러 개의 평균 비교 _ 4.1 분산분석 1
카테고리: Stat-basic
태그: Stat-basic Statistics
앞 게시물에서 카이-제곱 검증으로 범주형 변수 하나의 범주간의 비율 그리고 두 개의 범주형 변수간의 연관성에 대한 검증을 하였다. Chap 4는 평균 차이의 검증을 확장하는 방법을 소개한다. 이 방법을 통해 양적 변수와 범주형 변수의 관계를 분석한다.
분산분석(ANOVA)
t-검증을 사용하여 독립된 두 집단 간(범주형)의 양적 변수의 평균을 비교하였다. 하지만 세 집단 이상을 비교할 때 분산분석을 이용하면 된다. 분산분석은 집단이 실제로 얼마나 다른지 평가하기 위하여 집단 내의 변동과 집단 간의 변동을 비교한다.
- 정의
세 집단 이상의 집단 평균치의 차이를 검장하는 분석이다. 즉 세 개 이상의 범주로 나뉜 집단간의 양적 변수의 평균 차이를 분석하여 연관성을 찾는 것이다.
- 분산분석이 필요한 이유
t-검증에 적용시 세 집단 각각의 차이를 검증하여 절차가 번거롭다. (A-B, B-C, A-C) 오차가 커진다. (\(\alpha = 0.05\)인 경우 3집단 비교시 \(\alpha = 1-(1-0.05)^3 = 0.143\))
영가설과 대안가설
각 집단의 평균을 \(\mu_1, \mu_2, \mu_3\)이라고 표기하면 가설은 아래와 같다.
\(H_0 : \mu_1 = \mu_2 = \mu_3\)
\(H_\alpha\) : 최소한 하나는 \(\mu_i \neq \mu_j\)
영가설은 세 집단의 평균이 같다는 것이고 대안가설은 세 집단 중 최소한 하나의 평균은 다른 것과 다르다는 것이다. 따라서 대안 가설은 범주형 변수와 양적 변수 사이에 연관이 있다는 것이다. (어떤 그룹이 다른지를 결정하는 문제는 다음에 다룬다.)
평균이 같다는 건 변수로서 의미가 없다는 것, 따라서 양적변수에 영향을 못 준다는 것이다.
예시
샌드위치의 종류에 따라 개미가 다르게 몰려든다. 세 종류의 샌드위치는 베지마이트, 땅콩 버터, 행과 피클을 준비했다. 무작위로 샌드위치 조각을 바닥에 놓고 몇 분 후에 개미의 수를 세었다. 데이터는 아래와 같다.
해당 데이터에서 양적 변수는 개미의 수이고 범주형 변수는 샌드위치의 종류(3가지)이다.
요약 통계량
위 요약 통계량을 보면 샌드위치 유형별로 표본 평균이 다르고 햄과 피클의 평균이 상당히 높은 것을 알 수 있다. 하지만 이 차이가 통계적으로 유의한지 확인하여야 한다.
즉 영가설에 반하는 증거를 확인하려면 영가설이 참일 때 표본은 어떤 것인지 생각해야한다. 영가설은 모든 샌드위치의 평균 개미 수가 같다는 것이므로 표본을 모두 함쳐 24개로 이루어진 통합 표본을 만들어야한다. 통합 표본의 평균 \(\bar x = 38.0\)이고 표준편차는 \(s = 13.95\)이다.
각 집단의 크기가 같다면 집단별 평균들의 평균이 통합 평균이다. (다르면 따로 통합 표본 평균을 계산해야함)
변동분석
영가설이 참일 경우 표본은 같은 모집단에서 생성된다. (평균이 같으니까.) 모집단의 평균이 38이라고 가정하자. 평균이 38인 모집단에서 크기가 8인 표본을 추출하면 표본 평균이 30.75, 34.0, 49.25만큼 다를 가능성이 얼마나 될까?
변동 분석을 하는 이유
크게 두가지 이유가 있다. 첫 째, 표본 평균의 변동은 표본 크기뿐만 아니라 모집단의 변동에 의존한다. 둘 째, 모든 그룹의 평균들이 서로 얼마나 떨어져 있는지를 하나의 통계량으로 측정하고 싶다. 이 두 가지 이유로 변동을 분석해야한다.
\(*\)변동의 수학적 정의는 통계 자료의 수치들이 크고 작음을 이르는 말이다
\(*\)결국 변동이 작을 수록 영가설이 맞을 확률이 높은것 왜냐면 변동이 작은건 모집단에서 다같이 나올 가능성이 높음
위 그림은 세 그룹을 비교하는 가상 데이터에 의한 상자그림이다. (빨간원은 표본 평균이다.) A와 B에서 평균은 같지만 퍼진 정도(변동)가 다르다. A와 C는 퍼진 정도(변동)은 같지만 그룹 평균은 다르다.
그룹 평균이 같지 않다(같은 모집단에서 나온게 아니다)에 대한 강력한 증거를 제공하는 그래프는 어느 것인가?
데이터 셋 A의 상자그림은 세 그룹 간의 평균 차이에 대한 가장 약한 증거를 보여준다.
상자 사이에 겹치는 부분(상자그림의 범위가 비슷)이 많아서 모집단 하나에서 3개의 표본이 나올 수 있다.
데이터 셋 B와 C는 그룹 평균의 차이에 대한 강력한 증거를 보여준다. (서로 범위가 다름) 특히 그룹1의 모든 데이터는 그룹2보다 작다.
깨달음
여러 그룹 간의 평균 차이에 대한 평가는 두 가지 종류의 변동. 즉, ‘평균이 서로 얼마나 다른지’와 ‘표본 내의 변동’에 따라 결정된다는 것이다. 그룹의 표본 평균을 아는 것만으로는 충분하지 않다. 표본의 변동이 작으면 B처럼 평균 변동이 작아도 탐지할 수 있다. 하지만 표본의 변동이 크면 데이터 C와 같이 표본 평균 변동도 더 멀리 떨어져 있어야 한다.
변동 분해
분산분석의 기본 개념은 데이터의 총 변동을 둘 이상으로 나누는 것이다. 평균을 비교할 때 이 중 하나는 그룹간(between) 변동을 반영한다. 집단 평균이 크게 다르면 이 변동이 클 것이다. 다른 하나는 표본 내(within) 변동을 측정한다. 표본의 범위가 넓다면 이 변동이 넓다는 것을 말한다.
총 변동 = 그룹 간(between) 변동 + 그룹 내(within) 변동
각각의 변동은 표본 표준편차와 마찬가지로 편차의 제곱합을 사용한다. 계산방법이 존재하지만 컴퓨터를 이용하는 것이 편리하다.
총 변동
총 제곱합이고 SSTotal로 표기한다. 통합 표본의 평균에서 모든 데이터의 변동을 측정한 값이다.
그룹 간 변동
그룹의 제곱합이며 SSG로 표기한다. 집단의 평균이 얼마나 떨어져 있는지 측정한 값이다. 이것은 집단이 다르다는 것으로 설명할 수 있는 변동이다.
그룹 내 변동
오차 제곱합인데 SSE로 표기한다. 각 그룹 내 변동이 어느 정도인지를 측정한 값이다. 이것은 집단이 다르다는 사실만으로 설명할 수 없는 변동이므로 오차 변동이라 부른다.
모든 그룹 평균이 정확히 같다면, 그룹 간 변동(SSG)는 0이 될 것이다. 만약 개미들의 수 (데이터 값들)이 모두 같다면, 그룹 내 변동(SSE)는 0이 될 것이다.
SSTotal = SSG + SSE
총변동이 작다는 것은 집단의 평균 차이가 없다는 것이다. 그룹간, 그룹내 변동이 작다는 건 같은 모집단에서 추출되었을 확률이 높다는 것이고 결국 평균이 같다는 것과 동일하다.
댓글 남기기