본문 바로가기
SMALL

SEMINAR/데이터마이닝5

데이터마이닝 R - Random Forest 랜덤포레스트(Random Forest)는 배깅(Bagging)에 랜덤과정을 추가한 것이다. 배깅(Bagging)이란? 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순임의 복원추출하여 각 표본에 대해 분류기 (classifiers)를 생성한 후 그 결과를 앙상블 하는 방법 반복추출방법을 사용하기 때문에 같은 데이터가 한 표본에 여러번 추출될 수도 잇고, 어떤 데이터는 추출되지 않을 수도 있음 이러한 방법을 사용하여 랜덤포레스트는 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법이다. 새로운 자료에 대한 예측을 수행할 때, 분류의 경우에는 다수결로 선택하고 회귀의 경우에는 평균을 취하는 방법을 사용하며 이는 다른 앙상블 모형과 동일하다. 다음 실습으로 BostonH.. 2020. 6. 25.
데이터마이닝 R - Neural Network 실습 1. R을 이용하여 0< x 2020. 5. 24.
데이터마이닝 R - Naive bayes classification 실습 1. spam data를 이용하여 분류 모델을 만들고 결과 해석(비복원추출방법 사용) spam의 data를 사용하려면 library "kernlab" 을 install 해줘야한다. (명심!) spam dataset은 총 4601개의 이메일에서 등장하는 단어의 종류와 관련된 58개의 변수로 구성이 되어있다. 여기서 마지막 type은 스팸인지 아닌지를 구별하는 변수로 이 변수를 통하여 분류 모델을 구성할 것이다. library "klaR"을 사용하기 위해 먼저 install 해주고, 비복원추출로 분석하며 데이터의 70%를 train data로, 나머지를 test data로 사용한다. 4601개의 데이터이기 때문에 3220개의 데이터를 train 데이터로 지정해주었다. model1이라는 변수에 학습된 Naïv.. 2020. 5. 18.
데이터마이닝 R - Logistic regression_실습 및 해석 1. iris의 dataset 반응변수의 범주가 2개인 로지스틱 회귀를 적용하기 위해 반응변수를 setosa와 versicolor인 100개의 자료만을 이용한다. 2. 로지스틱 회귀 분석 시작 glm()함수를 이용하여 로지스틱 회귀모형을 적합한다. 3. 예측함수 및 정오분류표 작성 1로 예측할 확률이 기준치 0.5보다 클 경우에는 1로, 0.5 이하일 경우에는 0으로 예측한다. 결과를 보면 실제 값이 0일 때 0으로 예측한 경우는 45개 1일 때 1로 분류한 경우는 44개이다. 4. 예측력 측도 5. ROC 곡선 및 AUC 생성 2020. 5. 6.
데이터마이닝 R - 변수 선택 방법 실습 예제 변수 선택 방법 전진선택법(Forward Selection) 아무 변수가 없는 영모형 Y←1 에서 하나씩 변수를 추가해가면서 모형을 선택한다. 후진제거법(Backward Elimination) 유의하지 않은 변수가 많을지라도 p값을 기준으로 전체에서 1개씩 변수를 제거하여 모든 변수가 유의하며, 더 이상 제거할 변수가 없을 때까지 제거한다. 변수를 하나씩 제거하는 이유는 다중공성성(x1 변수 삭제 시, x2의 p값이 증가할 수 있음) 때문이다. 단계적선택법(Stepwise Selection) 모든 부분집합을 고려하는 방법으로 Best의 변수를 선택할 수 있으며, 전진 선택법과 후진 제거법의 장점을 더한 방법이므로 변수선택 방법 중 많이 사용하는 방법이다. mtcars의 dataset l AIC 통계량을 .. 2020. 5. 4.
LIST