어텐션 기반 딥러닝 모델을 활용한 확장된 장보 정보 탐지 기법 연구
서울대학교 대학원 민경현 학위논문 (2020)
[Introduction]
기존 텍스트에서 공간 정보를 추출하고자 사전 기반 탐지, 규칙 기반 탐지, 개체명 인식 등의 다양한 연구가 이루어 졌다.
사전 기반 탐지는 온톨로지와 같이 기존 구축된 장소정보 사전과의 문자열 매칭을 통해 장소 정보를 추출하는 기법이다.
사전 기반은 찾고자 하는 장소 정보가 포함되어 있지 않으면 매칭이 불가하기 때문에 사전 구축 및 갱신이 주기적으로 필요하다.
규칙 기반 탐지는 언어적 특징에 주목하여 장소벙보를 탐지하는 기법이다.
규칙 기반 탐지는 비정형의 텍스트 데이터에서는 장소 정보를 탐지하는 데 한계가 있다.
개체명 인식은 텍스트에서 나타나는 단어가 어떤 개체인지 인식하는 기술로 일반적으로 사람, 장소, 조직 등을 인식한다.
개체명 인식은 고유명사 등은 탐지 정확도가 높으나 보통 명사는 탐지되지 않으며 학습데이터 구축 시 BIO태깅이 필요하기 때문에 인력 및 시간 소모가 상당히 크다는 한계가 존재함.
소셜 미디어 플랫폼과 같이 문장 내에 장소 정보 포함여부에 따른 문장을 분류하고, 이와 동시에 문장 내 포함하고 있는 장소정보를 탐지하고자 함.
[Methodology]
LSTM 기반의 시퀀스 인코더와 어텐션 메커니즘을 활용하여 문장 분류 및 문장 내 장소정보 탐지를 목표로 함.
- 단어임베딩 : Fasttext 기법 사용
- 데이터 셋 : 네이버 뉴스 데이터 사용
[Result]
정확도 : 88%
[Conclustions]
탐지된 장소정보가 행정구역인지, POI명인지 개체종류를 알 수 없는 한계
4개 이상의 여러 장소정보가 연속적으로 포함되어 있는 경우, 중간에 나오는 장소정보를 탐지하지 못하는 경우가 발생