본문 바로가기
SMALL

사이킷런2

데이터 전처리 기계학습을 위한 데이터 전처리 방법들 (feat. 사이킷런) 이상치 및 결측치 대체 방법 0으로 대체 np.isnan à np.nan_to_num 평균값 or 중앙값 or 최빈값으로 대체 sklearn의 SimpleImputer 클래스 활용 회귀 대체 IterativeImputer 클래스 및 LinearRegression 활용 KNN 대체 KNNImputer 클래스 활용 이상치 탐지 방법 이상치는 데이터 분석을 방해하거나 잘못된 결론을 내리는 원인이 될 수 있음 이상치를 찾아내어 제거하거나 대체함으로써, 데이터 분석 결과의 신뢰성을 향상 이상치 탐지 특징 ​ 코드​ Isolation Forest - 데이터 포인트들을 분리하기 위한 트리를 생성 - 각 데이터 포인트가 얼마나 적은 트리를 통과하는지를 이용하.. 2023. 5. 2.
chap02. 자연어 처리 개발 준비_사이킷런(Scikit-learn) 이번 포스팅은 자연어 처리를 위한 도구 중 사이킷런에 대한 내용이다. [사이킷런(scikit-learn)] 사이킷런(scikit-learn)은 머신러닝 기술을 활용하는 데 필요한 다양한 기능을 제공하며, 파이썬으로 머신러닝 모델을 만들 수 있는 최적의 라이브러리다. 사이킷런 라이브러리는 지도 학습 모듈, 비지도 학습 모듈, 모델 선택과 평가 모듈, 데이터 변환 모듈로 이루어져 있으며 종류는 다음과 같다. - 지도 학습 모듈 종류 : 나이브 베이즈(Naive Bayes), 의사결정 트리(Decision Trees), 서포트 벡터 머신(Support Vector Machines) 모델 등 - 비지도 학습 모듈 종류 : 군집화(Clustering), 가우시안 혼합 모델(Gaussian mixture model.. 2021. 7. 1.
LIST