- 변수 선택 방법
- 전진선택법(Forward Selection)
아무 변수가 없는 영모형 Y←1 에서 하나씩 변수를 추가해가면서 모형을 선택한다. - 후진제거법(Backward Elimination)
유의하지 않은 변수가 많을지라도 p값을 기준으로 전체에서 1개씩 변수를 제거하여 모든 변수가 유의하며,
더 이상 제거할 변수가 없을 때까지 제거한다.
변수를 하나씩 제거하는 이유는 다중공성성(x1 변수 삭제 시, x2의 p값이 증가할 수 있음) 때문이다. - 단계적선택법(Stepwise Selection)
모든 부분집합을 고려하는 방법으로 Best의 변수를 선택할 수 있으며, 전진 선택법과 후진 제거법의 장점을
더한 방법이므로 변수선택 방법 중 많이 사용하는 방법이다.
- 전진선택법(Forward Selection)
- mtcars의 dataset

l AIC 통계량을 이용한 변수 선택 방법 실습
1. 전진선택법

AIC 통계량 기준으로 판단하여 다중회귀 모델의 변수를 전진선택법으로 판단하였을 때의 결과이다.
변수는 총 10개의 변수를 선택하였을 때 최상의 결과를 보이며, 결과로서 보이는 식을 정리하면

이라고 할 수 있으며, 이 식은

다음과 같이 R-squared(결정계수) 값이 0.869로 약 87%로 적합한 것으로 보이며,
Adjusted R-squared(수정결정계수) 값도 0.8066으로 약 80%로 나왔다. F통계량과 p-value의 값을 보았을 때,
통계적으로 유의하다고 할 수 있다.
2. 후진제거법

AIC 통계량 기준으로 판단하여 다중회귀 모델의 변수를 후진제거법으로 판단하였을 때의 결과이다.

변수는 총 3개의 변수를 선택하였을 때 최상의 결과를 보이며, 결과로서 보이는 식을 정리하면

이라고 할 수 있으며, 이 식은

다음과 같이 R-squared (결정계수) 값이 0.8497로 약 85%로 적합한 것으로 보이며,
Adjusted R-squared (수정결정계수) 값도 0.8336으로 약 83%로 나왔다.
F통계량과 p-value의 값을 보았을 때, 통계적으로 유의하다고 할 수 있다.
AIC통계량에서의 변수선택방법으로 인하여 결과가 다르게 나타나는 모습을 확인하였다.
두가지 방법 모두 통계적으로 유의한 방법으로 나왔지만 AIC통계량이 전진선택법에서는 70.9를 보여주었고,
후진제거법에서는 61.31로 더 작은 값을 보여주기 때문에 후진제거법에서 우수한 결과를 보여주었다고 할 수 있다.
l BIC 통계량을 이용한 변수 선택 방법 실습
1. 전진선택법

BIC 통계량 기준으로 판단하여 다중회귀 모델의 변수를 전진선택법으로 판단하였을 때의 결과이다.
최적의 모형을 알아보기 위해서 그래프를 그려보면 다음과 같은 결과를 갖는다.

변수는 총 2개의 변수를 선택하였을 때 최상의 결과를 보이며, 결과로서 보이는 식을 정리하면 다음과 같다.


2. 후진제거법

BIC 통계량 기준으로 판단하여 다중회귀 모델의 변수를 후진제거법으로 판단하였을 때의 결과이다.
최적의 모형을 알아보기 위해서 그래프를 그려보면 다음과 같은 결과를 갖는다.

변수는 총 3개의 변수를 선택하였을 때 최상의 결과를 보이며, 결과로서 보이는 식을 정리하면 다음과 같다.


'SEMINAR > 데이터마이닝' 카테고리의 다른 글
데이터마이닝 R - Random Forest (0) | 2020.06.25 |
---|---|
데이터마이닝 R - Neural Network 실습 (0) | 2020.05.24 |
데이터마이닝 R - Naive bayes classification 실습 (0) | 2020.05.18 |
데이터마이닝 R - Logistic regression_실습 및 해석 (0) | 2020.05.06 |