Event classification and location prediction from tweets during disasters
Jyoti Prakash Singh2 · Yogesh K. Dwivedi1 · Nripendra P. Rana1 ·Abhinav Kumar2 · Kawaljeet Kaur Kapoor3
Ann Oper Res (2019) 283:737–757
[Introduction]
소셜 미디어는 재난에 대한 경험과 조언을 게시할 수 있는 공간을 제공한다는 점과 피해자들의 정보를 알수 있다는 점을 통해 재난 관리를 위한 도구로 탐구되어 왔다.
하지만 소셜 미디어는 위치기반 정보에 제한이 존재하는데, 제한은 다음과 같다.
- 도시 레벨 이하의 정보를 제공하는 사용자는 26%밖에 되지 않는다.
- 0.42%~3.17%의 사용자만이 Geotag를 사용한다.
- 시골보다 도시에서 더 많은 사용자가 존재한다. (시골에서는 긴급상황 탐지비율이 낮음을 뜻함)
- GPS는 많은 양의 배터리를 사용하기 때문에 응급상황 발생시 배터리를 아끼기 위해 GPS를 끈다.
기존의 이벤트 감지 시스템은 재난 탐지 여부에 국한되어있거나, 재난 예방을 위한 정보나 경고를 제공하는 것에 그쳤지만 본 논문은 피해자들에게 도움을 제공하는 플랫폼을 목표로 한다.
그러기 위해 재난과 관련된 트윗을 분리하여야 하며 분리된 트윗은 구조 팀에게 전달한다.
[Methodology]
분석 순서도는 다음과 같으며 분석 수행단계는 4단계로 이루어진다.
- 데이터 수집
- 트위터 API를 사용해 인도의 홍수 데이터 수집, 키워드 : "flood", "water", "Baarh(넘치다)"
- Spammer를 걸러내기 위해 팔로잉 수가 팔로워 수 이상인 사람만 수집
- 데이터 전처리
- 리트윗 제거
- 인터넷 링크 제거
- ASCII 문자가 아닌 문자 제거
- 불용어 제거
- 모든 문자를 소문자로 변환
- 힌디어를 영어로 번역
- 이벤트 분류
- 파이썬 scikit-learn package 사용
- 관련 높은 트윗과 관련 낮은 트윗으로 분류하기 위해 다음과 같은 특징 추출
- 수동으로 주석 수행
- 사용된 단어 수
- 사용된 동사
- 사용된 동사 수
- 사용된 키워드의 위치
- 키워드 이전의 단어
- 키워드 이후의 단어
- 위치 추정
- 피해자의 가까운 친척이나 친구들도 같이 트윗을 쓰기 때문에 피해자인지 아닌지를 구별해야 함
- 위치 정보가 없는 사용자는 Markov 모델을 사용하여 위치 추정
[Result]
분류 : RandomForest > Gradient Boosting > Support Vector Machine
위치 : 87% 정확도
[Conclustions]
피해자 구조를 위한 이벤트 분류 시스템을 구축하였으며 위치 예측을 위해 markov model을 사용하였다.
본 논문의 한계점으로는 인터넷 링크를 무시했다는 것과, Geotag를 한번도 사용하지 않은 사용자는 탐지가 불가는하다는 것, 그리고 홍수에 대한 탐지만 수행해보았다는 것이다.
장점으로는 재난 탐지 뿐만 아니라 이동 패턴 탐지에도 사용할 수 있다는 것이다.