728x90
반응형
SMALL
[Introduction]
- SMAFED라는 소셜 미디어 분석 프레임 워크 제안
- 용어, 약어 및 줄임말 등(=sab)의 단어 의미 분석 수행
- 이러한 단어의 어휘를 나타내는 통합 지식 베이스 생성
[Methodology]
- Data Input Layer
- python의 twitter api를 이용하여 데이터 수집
- Pre-processing Layer
- 구두점, 반복문자 제거등의 데이터 정리
- nltk를 통한 토큰화 및 정규화와 말뭉치를 사용하여 sab 추출
- Data Enrichment Layer
- Naijalingo, Urban dictionary, Internet slang 세 가지를 활용하여 약 200만개의 sab 용어 정의와 예시를 포함한 통합지식베이스 생성
- 모호한 sab가 사용된 tweet과 지식베이스의 예시를 비교하여 단어의 명확화 수행
- python의 jamspell라이브러리를 사용하여 철자 확인
- jamspell은 단어 문맥을 고려하여 철자를 확인하며, 다양한 언어를 지원하는 장점이 있음
- Event Detection Layer
- tweet을 벡터화하기위해 sent2vec 사용
- 히스토그램 기반 증분 클러스터링(SHC)를 사용하여 이벤트 클러스터
- 실제 이벤트를 탐지하기 위해 클러스터 구성 단어의 중요성 계산을 통하여 클러스터 랭킹
- 각 클러스터의 내용을 알기 위해 대표 tweet을 결정
- Evaluation Experiment
- sab용어 분석이 미치는 영향력을 확인하기 위해 감정 분석 수행 -> sab용어 분석이 이루어진 쪽이 훨씬 결과가 좋음
- 제안하는 알고리즘의 성능 평가 -> 여러가지 클러스터링 기법 중 가장 좋은 성능을 보임
- conclusion
- 소셜 미디어 스트림에서 숨겨진 지식을 분석하여 이벤트 감지의 정확성을 향상시킴
- 향후 연구로는 이미지와 관련 텍스트를 통합하여 분석 수행과 다른 소셜 미디어 소스를 결합하는 방법으로 진행할 예정
728x90
반응형
LIST