본문 바로가기
SMALL

한글 텍스트 분류2

Chap04. 한글 텍스트 분류_모델링 2 이번 포스팅은 이전에 전처리한 한글 데이터 파일을 활용해 감정 분석 모델링을 해볼 것이다. 모델은 합성곱 신경망(CNN)을 활용하여 구현할 예정이다. 먼저 모델링 과정에 필요한 라이브러리와 데이터를 불러오자. import os from datetime import datetime import tensorflow as tf import numpy as np import json from sklearn.model_selection import train_test_split DATA_IN_PATH = './data_in/' DATA_OUT_PATH = './data_out/' INPUT_TRAIN_DATA = 'nsmc_train_input.npy' LABEL_TRAIN_DATA = 'nsmc_train_la.. 2021. 8. 3.
Chap04. 한글 텍스트 분류_모델링 1 영어와 한글은 언어적인 특성이 매우 달라서 전처리하는 과정부터 차이가 있다. 이번 포스팅에서는 한글 텍스트를 다루는 방법을 알아보고 분류하는 방법을 알아보도록 하자. 먼저, 이전에 사용한 NLTK는 한글 텍스트를 지원하지 않으며 한글 텍스트를 다루기 위해서는 KoNLPy를 사용해야 한다. 그러므로 KoNLPy를 사용해보자. 모델링을 위해 사용하는 데이터셋은 공개된 네이버 영화 리뷰 데이터를 사용한다. 이 데이터는 네이버 영화의 사용자 리뷰를 각 영화당 100개씩 모아서 만들어진 데이터로, 이 데이터를 사용하여 감정 분석을 수행해보자. [ 데이터 전처리 및 분석 ] 데이터를 다운로드 한 후 데이터 파일을 살펴보자. https://github.com/e9t/nsmc GitHub - e9t/nsmc: Nave.. 2021. 8. 2.
LIST