본문 바로가기
SMALL

Spacy2

spaCy 설치 오류 1. 기존 환경과 다른 오류 => conda로 새로운 가상환경 생성 후 activate2. 그래도 오류 -오류 내용 : ImportError: cannot import name 'tarfile' from 'backports'=> backprots라는 패키지가 잘못 설치되었거나 충돌된 상태일때 발생한다고 한다.(원래 tarfile은 파이썬 표준 라이브러리인데, backports 폴더가 덮어씌운 상태) 해결 방법:2.1. 깨진 backports 패키지 삭제pip uninstall backports 2.2. 다시 spaCy 확인python -m spacy info 그래도 안됨.이유 : backports 패키지가 물리적으로 존재하는데 pip uninstall에서는 인식이 안 되는 "손상된 설치" 케이스3. 직접.. 2025. 5. 23.
chap02. 자연어 처리 개발 준비_전처리 라이브러리 이번 포스팅은 자연어 토크나이징 도구에 대한 내용이다. 먼저 토크나이징이란 예측해야 할 입력 정보(문장 또는 발화)를 하나의 특정 기본 단위(기본적으로 단어를 단위로 함)로 자르는 것을 말한다. 파이썬을 이용하면 이러한 작업을 라이브러리를 통해 간편하게 처리가 가능하며, 언어의 특징에 따라 처리 방법이 달라지므로 영어 토크나이징과 한글 토크나이징을 구분해서 배우자. [ 영어 토크나이징 라이브러리 ] 영어의 경우 NLTK(Natural Language Toolkit)와 Spacy가 토크나이징에 많이 쓰이는 대표적인 라이브러리다. 이 두 라이브러리는 영어 텍스트에 대해 전처리 및 분석을 하기 위한 도구로 유명하다. ▶ NLTK NLTK는 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리다.. 2021. 7. 5.