본문 바로가기
SMALL

자연어처리13

7장_한글 자연어 처리 자연어 처리 기술(NLP, Natural Language Processing) : 사람이 말하는 언어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만드는 기술 1. 자연어 처리 분야 정보 검색(Information Retrieval Service) 가장 널리 사용되고 있는 상용화된 자연어 처리 영역 사용자가 입력한 용어나 문장에 대해 가장 유사한 문서를 찾아 순위를 매겨 사용자에게 제시하는 시스템 에이전트(Agent)라고 하는 로봇이 인터넷상의 웹 페이지를 방문하여 검색 가능하도록 인덱싱(indexing)하는 정보 수집 과정과 수집된 정보에 대해 사용자의 검색어와 연관성을 계산하는 랭킹 모델이 핵심 단순히 키워드 검색 뿐만 아니라 문맥, 산업별 전문용어 및 유사어, 관련성 등을 고려한 검색 서비스.. 2023. 3. 3.
Chap04. 한글 텍스트 분류_모델링 2 이번 포스팅은 이전에 전처리한 한글 데이터 파일을 활용해 감정 분석 모델링을 해볼 것이다. 모델은 합성곱 신경망(CNN)을 활용하여 구현할 예정이다. 먼저 모델링 과정에 필요한 라이브러리와 데이터를 불러오자. import os from datetime import datetime import tensorflow as tf import numpy as np import json from sklearn.model_selection import train_test_split DATA_IN_PATH = './data_in/' DATA_OUT_PATH = './data_out/' INPUT_TRAIN_DATA = 'nsmc_train_input.npy' LABEL_TRAIN_DATA = 'nsmc_train_la.. 2021. 8. 3.
Chap04. 한글 텍스트 분류_모델링 1 영어와 한글은 언어적인 특성이 매우 달라서 전처리하는 과정부터 차이가 있다. 이번 포스팅에서는 한글 텍스트를 다루는 방법을 알아보고 분류하는 방법을 알아보도록 하자. 먼저, 이전에 사용한 NLTK는 한글 텍스트를 지원하지 않으며 한글 텍스트를 다루기 위해서는 KoNLPy를 사용해야 한다. 그러므로 KoNLPy를 사용해보자. 모델링을 위해 사용하는 데이터셋은 공개된 네이버 영화 리뷰 데이터를 사용한다. 이 데이터는 네이버 영화의 사용자 리뷰를 각 영화당 100개씩 모아서 만들어진 데이터로, 이 데이터를 사용하여 감정 분석을 수행해보자. [ 데이터 전처리 및 분석 ] 데이터를 다운로드 한 후 데이터 파일을 살펴보자. https://github.com/e9t/nsmc GitHub - e9t/nsmc: Nave.. 2021. 8. 2.
Chap04. 영어 텍스트 분류_모델링 3 이번 포스팅은 딥러닝 분야의 컨볼루션 신경망에 대해 실습하면서 알아보자. 컨볼루션 신경망은 합성곱 신경망(CNN)이라고도 하며, 전통적인 신경망 앞에 여러 계층의 합성곱 계층을 쌓은 모델이다. 이는 입력 값에 대해 가장 좋은 특징을 만들어 내도록 학습하고, 추출된 특징을 활용해 분류하는 방식이다.일반적으로 이미지에서 많이 활용하였는데, 2014년 Yoon Kim 박사가 쓴 논문을 통해 텍스트에서도 좋은 효과를 낼 수 있다는 것을 입증하였다. 앞에서 본 RNN은 단어의 입력 순서를 중요하게 반영한다면 CNN은 문장의 지역 정보를 보존하면서 문장 성분의 등장 정보를 학습에 반영하는 구조이다. 이 모델을 구현하는 방법은 이전 포스팅인 RNN에서 설명했던 에스티메이터의 구조를 그대로 사용할 수 있으며, 모델쪽 .. 2021. 7. 29.
Chap04. 영어 텍스트 분류_모델링 1 이전 포스팅에서는 탐색적 데이터 분석 과정과 데이터 전처리 과정에 대해 알아보았다. Chap04. 텍스트 분류_데이터전처리 실습 텍스트 분류란 자연어 처리 기술을 활용해 글의 정보를 추출해서 문제에 맞게 사람이 정한 범주(Class)로 분류하는 문제다. 텍스트 분류의 방법과 예시 등 이론적인 내용은 앞에서 살펴봤으므로 yuna96.tistory.com 오늘은 이어서 직접 모델에 적용하고 텍스트의 감정이 긍정인지 부정인지를 예측할 수 있는 모델을 만들어보자. 실습할 모델은 로지스틱 회귀 모델과 랜덤 포레스트 모델이다. 1. 로지스틱 회귀 모델 로지스틱 회귀 모델은 주로 이항 분류를 하기 위해 사용되며 분류 문제에서 사용할 수 있는 가장 간단한 모델이다. 로지스틱 회귀는 선형 결합을 통해 나온 결과를 토대로.. 2021. 7. 26.
Chap04. 텍스트 분류_데이터전처리 실습 텍스트 분류란 자연어 처리 기술을 활용해 글의 정보를 추출해서 문제에 맞게 사람이 정한 범주(Class)로 분류하는 문제다. 텍스트 분류의 방법과 예시 등 이론적인 내용은 앞에서 살펴봤으므로 참고하면 좋겠다. Chap03. 자연어처리 개요_텍스트 분류 및 유사도 오늘은 자연어 처리 문제 중 가장 대표적이고 많이 하는 텍스트 분류와 텍스트끼리 얼마나 비슷한지를 계산하는 유사도에 대하여 알아보도록 하자. [ 텍스트 분류 ] 텍스트 분류(Text Classification) yuna96.tistory.com 이번 포스팅에서는 실제로 데이터를 가지고 텍스트 분류를 실습하면서 텍스트 분류가 무엇인지에 대해 알아보도록 하자. 실습은 영어와 한글을 나누어서 진행하는데, 그 이유는 자연어 처리 기술을 통해 언어를 처리.. 2021. 7. 21.
LIST