Chap 6. 다중 회귀분석 _ 6.3 모형선택
카테고리: Stat-basic
태그: Stat-basic Statistics
설명변수가 여러 개일 때, 어떤 변수의 조합이 최적의 모델인지 어떻게 결정할까? 반응변수를 예측하는 것이 목표일 때, 예측에 도움이 되는 변수는 모형에 포함하지만 그렇지 않은 변수는 모형에 포함하지 말아야 한다. 하지만 예측에 도움이 되는 변수를 선별하는 것은 상당한 경험을 필요로 하는 예술에 가깝다. 이에 도움이 되는 몇 가지 기준을 알아보자.
모형 선택의 기준
다중 회귀모형의 선택에 도움이 되는 기준이다.
- 개별 t-검증의 p값
- \[R^2\]
- 잔차의 표준오차
- 전체 모형의 p값
- 분산분석의 F-통계량
- 수정된 \(R^2\)
개별 t-검증의 p값, 전체 모형의 p값, 잔차의 표준오차는 작을 수록 좋다. \(R^2\), F-통계량 값은 큰 모형이 좋다. 이런 기준을 가지고 설명변수를 선별하며 전후 비교를 통해 어떤 모형이 더 좋은지 판단하며 모형을 만들어가야한다.
다중 회귀모형에서 범주형 변수
다중 회귀분석은 예측변수로 양적 변수뿐만 아니라 범주형 설명 변수까지 포함할 수 있기 때문에 강력하다. 대신 다중 회귀모형에서 모든 설명변수의 값은 숫자이어야 한다. 범주형 변수의 범주를 0과 1로 코드화하여 이항 범주형 변수를 포함할 수 있다.
예시
SalaryGender 데이터는 성별(Gender, 0 = 여성, 1 = 남성), 연봉, 나이, 박사학위 소지 여부(phD, 0 = No, 1 = Yes)등에 대한 100명의 대학 교수의 무작위 표본 자료이다.
데이터를 상자그림으로 표현했을때 남자가 여성보다 더 많이 받고 있는 것으로 보인다. 표본 평균 차이은 21.787 (계산해보았음)이고 평균차이 t-검증을 통해 p값이 대략 0.0096이 나오므로 유의하게 다르다는 것을 알 수 있다. 구체적으로 어떻게 유의한지 알기 위해 회귀분석을 시행해본다.
url <- "http://www.lock5stat.com/datasets2e/SalaryGender.csv"
SalaryGender <- read.csv(url)
fit <- lm(Salary ~ Gender, data=SalaryGender)
summary(fit)
결과
절편 41.631은 표본에서 여성의 평균 연봉과 일치한다. 즉, 성별값이 0일때 여성의 평균을 성별값이 1일때 남성의 평균을 알려주는 것을 알려주며 회귀계수는 표본 평균의 차이를 알려준다. 또한 평균차이를 검증했을 때 t-검증과 상당히 비슷하다는 것을 알 수 있다.
설명변수 사이의 연관
다중 회귀분석은 반응변수를 더 잘 예측하고 설명할 수 있는 가능성을 열어준다. 하지만 그만큼 모형을 해석하는 것은 까다롭다.
예시
StatGrades 데이터를 토대로 기말시험 점수 예측을 해보겠다.
url <- "http://www.lock5stat.com/datasets2e/StatGrades.csv"
StatGrades <- read.csv(url)
fit <- lm(Final ~ Exam1 + Exam2, data=StatGrades)
summary(fit)
결과
위 결과를 토대로 2개의 시험 점수는 기말고사 점수 변동의 52.5%를 설명한다. 실제 기말고사 점수는 예측 점수에서 잔차의 표준오차 2배(2 x 6.38 = 12.76)이내일 것으로 예상한다.
하지만 p값이 0.215인 Exam2 변수는 유의한 예측변수가 아니다. 하지만 신기하게도 단순 회귀분석으로 Exam2 변수는 매우 유의한 예측변수이다. 그 이유는 Exam2의 시험범위가 Exam1의 시험범위와 비슷하며 기말고사의 시험범위에 약간 영향을 못 미치는 범위기 때문이다. (이렇듯 변수 선택에는 실험자의 주관도 필요하다.) 따라서 일종의 중복된 변수이라는 것이다.
이런 점들을 유의하여 데이터를 분석하고 조작하여 알맞는 회귀분석을 시행하고 모형을 만들어 해석하여야 한다.
댓글 남기기