SMALL 프로젝트/농진청3 데이터 전처리 기계학습을 위한 데이터 전처리 방법들 (feat. 사이킷런) 이상치 및 결측치 대체 방법 0으로 대체 np.isnan à np.nan_to_num 평균값 or 중앙값 or 최빈값으로 대체 sklearn의 SimpleImputer 클래스 활용 회귀 대체 IterativeImputer 클래스 및 LinearRegression 활용 KNN 대체 KNNImputer 클래스 활용 이상치 탐지 방법 이상치는 데이터 분석을 방해하거나 잘못된 결론을 내리는 원인이 될 수 있음 이상치를 찾아내어 제거하거나 대체함으로써, 데이터 분석 결과의 신뢰성을 향상 이상치 탐지 특징 코드 Isolation Forest - 데이터 포인트들을 분리하기 위한 트리를 생성 - 각 데이터 포인트가 얼마나 적은 트리를 통과하는지를 이용하.. 2023. 5. 2. pandas요약 한 데이터를 기준으로 개수세기 : value_counts() ex) 날짜 별 개수세기 = df['날짜'].value_counts() 필요한 컬럼만 추출하여 데이터프레임 만들기 : df[['columns1', 'columns2', ..., 'columnsN']] ex) df의 컬럼 S1~S7중 S1, S3, S6만 사용하여 df2 생성 : df2 = df[['S1', 'S3', 'S6']] 2022. 11. 1. ssh 접속 실패 원인들 1. 동적 ip 확인 2. 방화벽 해제 3. ssh 실행중인지 확인 2022. 1. 24. 이전 1 다음 LIST