본문 바로가기
SEMINAR/데이터마이닝

데이터마이닝 R - 변수 선택 방법 실습 예제

by 스꼬맹이브로 2020. 5. 4.
728x90
반응형
SMALL
  • 변수 선택 방법
    1. 전진선택법(Forward Selection)
      아무 변수가 없는 영모형 Y←1 에서 하나씩 변수를 추가해가면서 모형을 선택한다.
    2. 후진제거법(Backward Elimination)
      유의하지 않은 변수가 많을지라도 p값을 기준으로 전체에서 1개씩 변수를 제거하여 모든 변수가 유의하며,
      더 이상 제거할 변수가 없을 때까지 제거한다.
      변수를 하나씩 제거하는 이유는 다중공성성(x1 변수 삭제 시, x2의 p값이 증가할 수 있음) 때문이다.
    3. 단계적선택법(Stepwise Selection)
      모든 부분집합을 고려하는 방법으로 Best의 변수를 선택할 수 있으며, 전진 선택법과 후진 제거법의 장점을
      더한 방법이므로 변수선택 방법 중 많이 사용하는 방법이다
      .
  • mtcarsdataset

 

l  AIC 통계량을 이용한 변수 선택 방법 실습

1. 전진선택법

AIC 전진선택법

AIC 통계량 기준으로 판단하여 다중회귀 모델의 변수를 전진선택법으로 판단하였을 때의 결과이다.

변수는 총 10개의 변수를 선택하였을 때 최상의 결과를 보이며, 결과로서 보이는 식을 정리하면

이라고 할 수 있으며, 이 식은

AIC 전진선택법 요약표

다음과 같이 R-squared(결정계수) 값이 0.869로 약 87%로 적합한 것으로 보이며,

Adjusted R-squared(수정결정계수) 값도 0.8066으로 약 80%로 나왔다. F통계량과 p-value의 값을 보았을 때,

통계적으로 유의하다고 할 수 있다.

 

2. 후진제거법

AIC 후진제거법

AIC 통계량 기준으로 판단하여 다중회귀 모델의 변수를 후진제거법으로 판단하였을 때의 결과이다.

AIC 후진제거법 결과표

변수는 총 3개의 변수를 선택하였을 때 최상의 결과를 보이며, 결과로서 보이는 식을 정리하면

이라고 할 수 있으며, 이 식은

AIC 후진제거법 요약표

다음과 같이 R-squared (결정계수) 값이 0.8497로 약 85%로 적합한 것으로 보이며,
Adjusted R-squared (
수정결정계수) 값도 0.8336으로 약 83%로 나왔다.
F
통계량과 p-value의 값을 보았을 때, 통계적으로 유의하다고 할 수 있다.

 

AIC통계량에서의 변수선택방법으로 인하여 결과가 다르게 나타나는 모습을 확인하였다.

두가지 방법 모두 통계적으로 유의한 방법으로 나왔지만 AIC통계량이 전진선택법에서는 70.9를 보여주었고,
후진제거법에서는 61.31로 더 작은 값을 보여주기 때문에 후진제거법에서 우수한 결과를 보여주었다고 할 수 있다.

 

l  BIC 통계량을 이용한 변수 선택 방법 실습

1. 전진선택법

BIC 전진선택법

BIC 통계량 기준으로 판단하여 다중회귀 모델의 변수를 전진선택법으로 판단하였을 때의 결과이다.

최적의 모형을 알아보기 위해서 그래프를 그려보면 다음과 같은 결과를 갖는다.

BIC 전진선택법 그래프

변수는 총 2개의 변수를 선택하였을 때 최상의 결과를 보이며, 결과로서 보이는 식을 정리하면 다음과 같다.

BIC 전진선택법 함수

2. 후진제거법

BIC 후진제거법

BIC 통계량 기준으로 판단하여 다중회귀 모델의 변수를 후진제거법으로 판단하였을 때의 결과이다.

최적의 모형을 알아보기 위해서 그래프를 그려보면 다음과 같은 결과를 갖는다.

BIC 후진제거법 그래프

변수는 총 3개의 변수를 선택하였을 때 최상의 결과를 보이며, 결과로서 보이는 식을 정리하면 다음과 같다.

BIC 후진제거법 함수

 

728x90
반응형
LIST