SMALL konlpy1 chap02. 자연어 처리 개발 준비_전처리 라이브러리 이번 포스팅은 자연어 토크나이징 도구에 대한 내용이다. 먼저 토크나이징이란 예측해야 할 입력 정보(문장 또는 발화)를 하나의 특정 기본 단위(기본적으로 단어를 단위로 함)로 자르는 것을 말한다. 파이썬을 이용하면 이러한 작업을 라이브러리를 통해 간편하게 처리가 가능하며, 언어의 특징에 따라 처리 방법이 달라지므로 영어 토크나이징과 한글 토크나이징을 구분해서 배우자. [ 영어 토크나이징 라이브러리 ] 영어의 경우 NLTK(Natural Language Toolkit)와 Spacy가 토크나이징에 많이 쓰이는 대표적인 라이브러리다. 이 두 라이브러리는 영어 텍스트에 대해 전처리 및 분석을 하기 위한 도구로 유명하다. ▶ NLTK NLTK는 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리다.. 2021. 7. 5. 이전 1 다음 LIST