본문 바로가기

SMALL

데이터 분석2

Chap04. 텍스트 분류_데이터전처리 실습 텍스트 분류란 자연어 처리 기술을 활용해 글의 정보를 추출해서 문제에 맞게 사람이 정한 범주(Class)로 분류하는 문제다. 텍스트 분류의 방법과 예시 등 이론적인 내용은 앞에서 살펴봤으므로 참고하면 좋겠다. Chap03. 자연어처리 개요_텍스트 분류 및 유사도 오늘은 자연어 처리 문제 중 가장 대표적이고 많이 하는 텍스트 분류와 텍스트끼리 얼마나 비슷한지를 계산하는 유사도에 대하여 알아보도록 하자. [ 텍스트 분류 ] 텍스트 분류(Text Classification) yuna96.tistory.com 이번 포스팅에서는 실제로 데이터를 가지고 텍스트 분류를 실습하면서 텍스트 분류가 무엇인지에 대해 알아보도록 하자. 실습은 영어와 한글을 나누어서 진행하는데, 그 이유는 자연어 처리 기술을 통해 언어를 처리.. 2021. 7. 21.

Chap03. 자연어처리 개요_데이터 이해하기 자연어 처리를 해결하면서 우리는 모델을 만들고 훈련 후에 성능을 평가하고, 생각보다 성능이 안 나온다면 모델에 문제가 있다고 판단하고 다른 모델을 사용한다. 이처럼 모델에 문제가 있는 경우도 있지만 우선적으로 해당 문제를 잘 해결하기 위해서는 데이터 이해가 선행되어야 하며 이러한 과정 속에서 생각하지 못한 데이터의 여러 패턴이나 잠재적인 문제점 등을 발견할 수 있다. 위와 같은 과정을 탐색적 데이터 분석(EDA : Exploratory Data Analysis)이라 하며, 데이터에 대한 선입견 없이 데이터가 보여주는 수치만으로 분석을 진행해야 한다. 그리고 이러한 데이터 분석 과정은 모델링 과정과 서로 상호 작용하면서 결과적으로 성능에 영향을 주기 때문에 매우 중요한 작업이다. 간단한 실습을 통해 데이터.. 2021. 7. 13.

이전 1 다음

티스토리툴바