본문 바로가기
PAPER

Event classification and location prediction from tweets during disasters

by 스꼬맹이브로 2022. 5. 30.
728x90
반응형
SMALL

Event classification and location prediction from tweets during disasters

Jyoti Prakash Singh2 · Yogesh K. Dwivedi1 · Nripendra P. Rana1 ·Abhinav Kumar2 · Kawaljeet Kaur Kapoor3

Ann Oper Res (2019) 283:737–757

 

[Introduction]

소셜 미디어는 재난에 대한 경험과 조언을 게시할 수 있는 공간을 제공한다는 점과 피해자들의 정보를 알수 있다는 점을 통해 재난 관리를 위한 도구로 탐구되어 왔다.

하지만 소셜 미디어는 위치기반 정보에 제한이 존재하는데, 제한은 다음과 같다.

  1. 도시 레벨 이하의 정보를 제공하는 사용자는 26%밖에 되지 않는다.
  2. 0.42%~3.17%의 사용자만이 Geotag를 사용한다.
  3. 시골보다 도시에서 더 많은 사용자가 존재한다. (시골에서는 긴급상황 탐지비율이 낮음을 뜻함)
  4. GPS는 많은 양의 배터리를 사용하기 때문에 응급상황 발생시 배터리를 아끼기 위해 GPS를 끈다.

기존의 이벤트 감지 시스템은 재난 탐지 여부에 국한되어있거나, 재난 예방을 위한 정보나 경고를 제공하는 것에 그쳤지만 본 논문은 피해자들에게 도움을 제공하는 플랫폼을 목표로 한다.

그러기 위해 재난과 관련된 트윗을 분리하여야 하며 분리된 트윗은 구조 팀에게 전달한다.

 

[Methodology]

분석 순서도는 다음과 같으며 분석 수행단계는 4단계로 이루어진다.

분석 수행 순서도

  1. 데이터 수집
    • 트위터 API를 사용해 인도의 홍수 데이터 수집, 키워드 : "flood", "water", "Baarh(넘치다)"
    • Spammer를 걸러내기 위해 팔로잉 수가 팔로워 수 이상인 사람만 수집
  2. 데이터 전처리
    • 리트윗 제거
    • 인터넷 링크 제거
    • ASCII 문자가 아닌 문자 제거
    • 불용어 제거
    • 모든 문자를 소문자로 변환
    • 힌디어를 영어로 번역
  3. 이벤트 분류
    • 파이썬 scikit-learn package 사용
    • 관련 높은 트윗과 관련 낮은 트윗으로 분류하기 위해 다음과 같은 특징 추출
      • 수동으로 주석 수행
      • 사용된 단어 수
      • 사용된 동사
      • 사용된 동사 수
      • 사용된 키워드의 위치
      • 키워드 이전의 단어
      • 키워드 이후의 단어
  4. 위치 추정
    • 피해자의 가까운 친척이나 친구들도 같이 트윗을 쓰기 때문에 피해자인지 아닌지를 구별해야 함
    • 위치 정보가 없는 사용자는 Markov 모델을 사용하여 위치 추정

[Result]

분류 : RandomForest > Gradient Boosting > Support Vector Machine

위치 : 87% 정확도

 

[Conclustions]

피해자 구조를 위한 이벤트 분류 시스템을 구축하였으며 위치 예측을 위해 markov model을 사용하였다.

본 논문의 한계점으로는 인터넷 링크를 무시했다는 것과, Geotag를 한번도 사용하지 않은 사용자는 탐지가 불가는하다는 것, 그리고 홍수에 대한 탐지만 수행해보았다는 것이다.

장점으로는 재난 탐지 뿐만 아니라 이동 패턴 탐지에도 사용할 수 있다는 것이다.

728x90
반응형
LIST