본문 바로가기
SMALL

정리/텐서플로와 머신러닝으로 시작하는 자연어처리14

Chap04. 한글 텍스트 분류_모델링 2 이번 포스팅은 이전에 전처리한 한글 데이터 파일을 활용해 감정 분석 모델링을 해볼 것이다. 모델은 합성곱 신경망(CNN)을 활용하여 구현할 예정이다. 먼저 모델링 과정에 필요한 라이브러리와 데이터를 불러오자. import os from datetime import datetime import tensorflow as tf import numpy as np import json from sklearn.model_selection import train_test_split DATA_IN_PATH = './data_in/' DATA_OUT_PATH = './data_out/' INPUT_TRAIN_DATA = 'nsmc_train_input.npy' LABEL_TRAIN_DATA = 'nsmc_train_la.. 2021. 8. 3.
Chap04. 한글 텍스트 분류_모델링 1 영어와 한글은 언어적인 특성이 매우 달라서 전처리하는 과정부터 차이가 있다. 이번 포스팅에서는 한글 텍스트를 다루는 방법을 알아보고 분류하는 방법을 알아보도록 하자. 먼저, 이전에 사용한 NLTK는 한글 텍스트를 지원하지 않으며 한글 텍스트를 다루기 위해서는 KoNLPy를 사용해야 한다. 그러므로 KoNLPy를 사용해보자. 모델링을 위해 사용하는 데이터셋은 공개된 네이버 영화 리뷰 데이터를 사용한다. 이 데이터는 네이버 영화의 사용자 리뷰를 각 영화당 100개씩 모아서 만들어진 데이터로, 이 데이터를 사용하여 감정 분석을 수행해보자. [ 데이터 전처리 및 분석 ] 데이터를 다운로드 한 후 데이터 파일을 살펴보자. https://github.com/e9t/nsmc GitHub - e9t/nsmc: Nave.. 2021. 8. 2.
Chap04. 영어 텍스트 분류_모델링 3 이번 포스팅은 딥러닝 분야의 컨볼루션 신경망에 대해 실습하면서 알아보자. 컨볼루션 신경망은 합성곱 신경망(CNN)이라고도 하며, 전통적인 신경망 앞에 여러 계층의 합성곱 계층을 쌓은 모델이다. 이는 입력 값에 대해 가장 좋은 특징을 만들어 내도록 학습하고, 추출된 특징을 활용해 분류하는 방식이다.일반적으로 이미지에서 많이 활용하였는데, 2014년 Yoon Kim 박사가 쓴 논문을 통해 텍스트에서도 좋은 효과를 낼 수 있다는 것을 입증하였다. 앞에서 본 RNN은 단어의 입력 순서를 중요하게 반영한다면 CNN은 문장의 지역 정보를 보존하면서 문장 성분의 등장 정보를 학습에 반영하는 구조이다. 이 모델을 구현하는 방법은 이전 포스팅인 RNN에서 설명했던 에스티메이터의 구조를 그대로 사용할 수 있으며, 모델쪽 .. 2021. 7. 29.
Chap04. 영어 텍스트 분류_모델링 2 이전 포스팅에서는 머신러닝 모델을 사용하여 감정 분석을 수행하였다. Chap04. 텍스트 분류_모델링 1 이전 포스팅에서는 탐색적 데이터 분석 과정과 데이터 전처리 과정에 대해 알아보았다. Chap04. 텍스트 분류_데이터전처리 실습 텍스트 분류란 자연어 처리 기술을 활용해 글의 정보를 추출해서 yuna96.tistory.com 이번 포스팅은 딥러닝 분야의 순환 신경망에 대해 실습하면서 알아보자. 1. 순환 신경망 분류 모델 순환 신경망(RNN)은 언어 모델에서 많이 쓰이는 모델 중 하나로 다른 모델들과 달리 이미 주어진 단어 특징 벡터를 활용해 모델을 학습하지 않고 텍스트 정보를 입력해서 문장에 대한 특징 정보를 추출한다. 이 모델이 나타내는 현재 정보는 이전 정보가 점층적으로 쌓이면서 정보를 표현할 .. 2021. 7. 29.
Chap04. 영어 텍스트 분류_모델링 1 이전 포스팅에서는 탐색적 데이터 분석 과정과 데이터 전처리 과정에 대해 알아보았다. Chap04. 텍스트 분류_데이터전처리 실습 텍스트 분류란 자연어 처리 기술을 활용해 글의 정보를 추출해서 문제에 맞게 사람이 정한 범주(Class)로 분류하는 문제다. 텍스트 분류의 방법과 예시 등 이론적인 내용은 앞에서 살펴봤으므로 yuna96.tistory.com 오늘은 이어서 직접 모델에 적용하고 텍스트의 감정이 긍정인지 부정인지를 예측할 수 있는 모델을 만들어보자. 실습할 모델은 로지스틱 회귀 모델과 랜덤 포레스트 모델이다. 1. 로지스틱 회귀 모델 로지스틱 회귀 모델은 주로 이항 분류를 하기 위해 사용되며 분류 문제에서 사용할 수 있는 가장 간단한 모델이다. 로지스틱 회귀는 선형 결합을 통해 나온 결과를 토대로.. 2021. 7. 26.
Chap04. 텍스트 분류_데이터전처리 실습 텍스트 분류란 자연어 처리 기술을 활용해 글의 정보를 추출해서 문제에 맞게 사람이 정한 범주(Class)로 분류하는 문제다. 텍스트 분류의 방법과 예시 등 이론적인 내용은 앞에서 살펴봤으므로 참고하면 좋겠다. Chap03. 자연어처리 개요_텍스트 분류 및 유사도 오늘은 자연어 처리 문제 중 가장 대표적이고 많이 하는 텍스트 분류와 텍스트끼리 얼마나 비슷한지를 계산하는 유사도에 대하여 알아보도록 하자. [ 텍스트 분류 ] 텍스트 분류(Text Classification) yuna96.tistory.com 이번 포스팅에서는 실제로 데이터를 가지고 텍스트 분류를 실습하면서 텍스트 분류가 무엇인지에 대해 알아보도록 하자. 실습은 영어와 한글을 나누어서 진행하는데, 그 이유는 자연어 처리 기술을 통해 언어를 처리.. 2021. 7. 21.
LIST