SMALL 정리34 chap02. 자연어 처리 개발 준비_전처리 라이브러리 이번 포스팅은 자연어 토크나이징 도구에 대한 내용이다. 먼저 토크나이징이란 예측해야 할 입력 정보(문장 또는 발화)를 하나의 특정 기본 단위(기본적으로 단어를 단위로 함)로 자르는 것을 말한다. 파이썬을 이용하면 이러한 작업을 라이브러리를 통해 간편하게 처리가 가능하며, 언어의 특징에 따라 처리 방법이 달라지므로 영어 토크나이징과 한글 토크나이징을 구분해서 배우자. [ 영어 토크나이징 라이브러리 ] 영어의 경우 NLTK(Natural Language Toolkit)와 Spacy가 토크나이징에 많이 쓰이는 대표적인 라이브러리다. 이 두 라이브러리는 영어 텍스트에 대해 전처리 및 분석을 하기 위한 도구로 유명하다. ▶ NLTK NLTK는 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리다.. 2021. 7. 5. chap02. 자연어 처리 개발 준비_사이킷런(Scikit-learn) 이번 포스팅은 자연어 처리를 위한 도구 중 사이킷런에 대한 내용이다. [사이킷런(scikit-learn)] 사이킷런(scikit-learn)은 머신러닝 기술을 활용하는 데 필요한 다양한 기능을 제공하며, 파이썬으로 머신러닝 모델을 만들 수 있는 최적의 라이브러리다. 사이킷런 라이브러리는 지도 학습 모듈, 비지도 학습 모듈, 모델 선택과 평가 모듈, 데이터 변환 모듈로 이루어져 있으며 종류는 다음과 같다. - 지도 학습 모듈 종류 : 나이브 베이즈(Naive Bayes), 의사결정 트리(Decision Trees), 서포트 벡터 머신(Support Vector Machines) 모델 등 - 비지도 학습 모듈 종류 : 군집화(Clustering), 가우시안 혼합 모델(Gaussian mixture model.. 2021. 7. 1. chap02. 자연어 처리 개발 준비_TensorFlow 이번 포스팅은 자연어 처리를 위한 도구를 알아보는 단계이다. 도구란 자연어 처리를 위한 라이브러리를 의미하며 이번 포스팅에서 알아볼 라이브러리 종류는 다음과 같다. 1. 텐서플로 - 딥러닝 모델을 만들기 위한 라이브러리 2. 사이킷런 - 머신러닝 모델과 데이터를 다루기 위한 라이브러리 3. NLTK와 Spacy - 자연어 데이터를 토크나이징 하기 위한 라이브러리 4. 넘파이 판다스 등 [ 텐서플로-TensorFlow ] 텐서플로(TensorFlow)는 구글에서 2015년에 오픈소스로 발표한 머신러닝 라이브러리다. 일반인이 쉽게 사용할 수 있도록 구성되어 있으며 파이썬을 주로 활용해 손쉽게 모델링 및 테스트가 가능한 구조이다. 또한 적극적으로 이슈 대응 및 버전 업그레이드를 통해 인지도를 높이고 있다. 텐.. 2021. 6. 30. chap01. 들어가며 1. 아나콘다 설치 아나콘다는 파이썬을 쉽고 간편하게 설치해서 사용할 수 있게 해주는 개발 도구로서 많은 AI 연구자 및 개발자들이 활용하고 있다. [윈도우 설치 방법] 1. 다운로드 페이지 접속 https://www.anaconda.com/products/individual Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 2. 다운로드 클릭 3. Next -> I Agree -> Just Me 클릭 후 Next -> 설치 경로 .. 2021. 6. 29. 이전 1 ··· 3 4 5 6 다음