[abstract]
실제 세계 이벤트를 효과적으로 요약하고 간결한 통찰력을 제공하기 위해 이 논문에서는 새로운 이벤트 지식 추출 작업인 이벤트 체인 마이닝을 제안
본 논문은 독자가 텍스트의 요점을 빠르게 파악하는 데 도움이 되며, 결과적으로 독해 효율성을 높이고 텍스트 이해도를 높이는 데 도움을 줌
[introduction]
웹 상에 다양하고 복잡하고 긴 뉴스가 넘쳐나면서, 그 핵심 아이디어를 빠르게 이해하는 방법이 우려가 커지면서 중요한 문제가 발생
figure 1은 슈퍼이벤트에 대한 세 개의 문서를 나타내며, 어떻게 발생했는지에 대한 연속적인 하이라이트를 제공.
이벤트 체인 마이닝은 다음 단계를 따름
1. 사건의 가변성 : 사건은 서로 다른 설명으로 표현될 수 있음 => 두 이벤트가 하나로 묶여야 정보 중복을 막을 수 있음
2. 이벤트 두드러짐의 불평등 : 뉴스의 모든 이벤트가 똑같이 중요한 건 아님. => 이벤트 체인에는 뉴스의 중심 요점만 포함되도록 필터링 되어야함.
3. 이벤트 관계의 모호성 : 여러 문서에 개별적으로 분산되어 있는 경우 관계 파악이 어려움
이를 해결하기 위해 이벤트를 유사한 의미를 가진 언급의 집합으로 간주.
이런 방식의 세가지 중요한 이점은
1. 동일한 이벤트의 다른 표현 해결
2. 이벤트 의미론을 향상시켜 이벤트 이해를 심화하고 중요한 이벤트를 인식하는 것이 쉬워짐.
3. 이벤트 간 정보 순서 풍부하게 함.
4가지 주요단계를 포함하는 EMiner제안
1. 동일한 슈퍼이벤트 텍스트 집합을 여러 이벤트 언급으로 분해, 구문 패턴 정교화, 모든 가능한 이벤트 추출(event mention extraction)
2. 유사한 의미 이벤트 클러스터화(event mention merging)
3. 이벤트 빈도 계산으로 두드러짐 측정(salient event selection)
4. 두드러진 이벤트를 순차적 체인으로 정렬(salient event ordering)
[framework]
1. Event Mention Extracion
수동 레이블에 의존하지 않고 추출하기 위한 방법을 채택.
이벤트 언급의 복잡한 구조를 처리하기 위해 Zhang et al. [44]에서 영감을 받은 자주 발생하는 구문 패턴을 사용
패턴 매칭을 통해 문장 종속성 트리 구조에 따라 텍스트에서 모든 가능한 이벤트 언급이 추출됨
종속성 파서(?)를 사용하여 퐁속성 파서 트리를 얻음
이벤트 언급의 중심이 동사이므로 각 문장에서 모든 동사를 추출
구문 패턴을 기반으로 76개의 구문 패턴을 정교하게 함.(표 5 참고 : 여러 이벤트 언급 패턴과 해당 예제. v는 동사, n은 명사, a는 형용사를 의미. “nsubj”, “dobj”, “xcomp”, “nsub-jpass”는 구문 관계.)
각 동사에 대해 종속단어와 종속성 레이블 확인.
이들이 구문 패턴 중 하나와 일치하면 해당 단어를 이벤트 언급으로 추출. 여기서 복잡한 패턴을 우선시하여 패턴이 정확히 일치한다면 나머지 패턴을 고려하지 않음
주목할 점은 절이 있는 문장을 동등하게 취급하므로 긴 문장을 완전히 이벤트 언급으로 분해가 가능함.
2. Event Mention Merging
유사한 이벤트 병합단계, 클러스터링의 개수를 정해놓지 않음
짧은 텍스트스트림 클러스터링 작업으로 공식화
이벤트 언급은 스트림으로 간주되고 각각은 증분 방식(?)으로 처리 (논문 예시 참고)
클러스터링 시 주의할 점(표현 및 업데이트, 클러스터 속하는 확률 추정, 언급 순서 피하기(?))
2.1. 클러스터를 표현하고 업데이트 하는 방법
이벤트 표현 방법 = 클러스터 피처(CF)
클러스터 피처는 튜플(fe, ne, xe)로 표현됨..
fe는 이벤트 e에서 언급 빈도 목록(?)을 포함함
ne는 이벤트 e의 언급 수
xe는 이벤트 e의 단어 수
클러스터 피쳐 벡터는 추가 및 삭제 속성을 제공(mention에서 사용된 단어의 발생 회수와 단어의 총 수를 사용)
2.2. 기존 클러스터와 새 클러스터에 속하는 언급의 확률을 추정하는 방법
Dirichlet Process Multinational Mixture (DPMM)을 사용하여 생성 - 디리클레 분포를 따른다는 가정 같음. 수식 다시 확인
- 기존 클러스터를 선택할 확률 식 설명 -
수식에서 첫번째는 클러스터의 완전성을 나타내며 클러스터링 모델에서 멘션이 새로운 클러스터에 어떻게 할당되는지를 설명함.
이를 통해 클러스터의 수는 이론적으로 무제한일 수 있지만, 실제로는 제한된 수의 클러스터만 생성됨.
수식에서 두번째는 클러스터와 멘션간의 단어 발생을 다룬것으로, 특정 단어가 얼마나 자주 나타나는지를 다항 분포를 통해 정의
수식에서 세번째는 클러스터와 언급 간의 의미적 유사성을 나타냄.
의미적 유사성은 사전 훈련된 언어 모델을 통해 문맥적 표현을 얻고 이 표현의 단어 임베딩 벡터 간 코사인 유사성을 계산함.
- 새 클러스터를 만들 확률 식 설명 -
2.3. 클러스터링에 포함시키는 방법
각 언급을 점진적으로 처리하고 모델을 업데이트
각 멘션에 대해, 현재 클러스터에서 삭제 속성(deletion property)을 사용하여 멘션을 삭제한 다음, 기존 클러스터에 재배정하거나 새로운 클러스터를 생성합니다. Eqs. (1)과 (2)에 따라 가장 높은 확률을 선택
3. Salient Event Selection
일반적이거나 구체적인 이벤트 필터링하여 눈에 띄는 이벤트를 선택.
중요성 점수를 계산하고 가장 높은 중요성 점수를 가진 언급을 선택하여 이벤트를 대표하도록 설정
이벤트의 언급이 텍스트에서 자주 발생하고 일반 도메인 배경 코퍼스에서는 거의 존재하지 않으면 이 이벤트는 높은 가치를 가짐.
4. Salient Event Ordering
한 문단에 두 개의 이벤트 언급이 있는경우, 대부분 이전 또는 이후로 분류하여 처리 -> 이러한 방법은 여러 문제점이 있음.(지역적 맥락에 의한 병목현상, 여러 문서 이벤트 처리 불가, 여러 이벤트의 전체 시퀀스 탐색 부족)
본 논문에서는 내용과 상식을 모두 통합하여 이벤트 시퀀스의 순서를 공동으로 결정하는 새로운 이벤트 순서 지정 방법을 제안
4.1 콘텐츠 기반 정리 - 다중 문서 다중 언급 투표 매커니즘
여러 문서에서 동일한 사건이 어떻게 언급되는지 비교하여 사건의 실제 발생 순서를 재구성하는 방법을 설명함.
이러한 방법은 과거 회상 처럼 사건의 서술이 시간 순서와 다른 문서들에도 효과적으로 사용할 수 있음.
---------------수식설명--------------
ContentScore(e) = 1/N_dSigmamin index(di,m)
식의 구성 요소 설명:
ContentScore(e): 사건 e의 내용 점수입니다. 이 점수는 사건 e가 여러 문서에서 얼마나 중요한지 또는 얼마나 일찍 언급되는지를 나타냅니다.
N_d : 전체 문서의 수입니다.
∑: 시그마 기호로, 모든 문서에 대해 합을 구한다는 의미입니다.
min index(𝑑𝑖,𝑚) :
𝑑𝑖 : i번째 문서를 나타냅니다.
m: 사건 e의 특정 언급(mention)을 나타냅니다.
index(𝑑𝑖,𝑚) 문서 𝑑𝑖에서 언급 𝑚이 등장하는 위치(인덱스)를 의미합니다.
min: 해당 문서 내에서 사건 e의 언급들 중 가장 먼저 등장하는 위치를 선택합니다.
전체적인 설명: 이 수식은 여러 문서에서 특정 사건 e가 어떻게 언급되는지를 평가하여, 그 사건의 **내용 점수(ContentScore)**를 계산하는 방법을 나타냅니다. 다음은 단계별 설명입니다.
요약:
**ContentScore(e)**는 여러 문서에서 사건
𝑒
e가 처음 언급되는 위치의 평균을 계산합니다.
이 점수를 통해 사건의 중요도나 중심성을 평가할 수 있습니다.
점수가 낮을수록 사건이 더 일찍 언급되어 중요할 가능성이 높습니다.
4.2 상식 기반 정리
bart 생성 모델을 활용하여 무작위로 정렬된 문장을 정상적인 순서로 복원.
때에 따라선는 사건의 순서에 대해 더 나은 상식을 얻을 수 있음
4.3 전체 정리
Order(e_i) = lambda· RankContent (e_i) + ((1 - lambda) · RankCommon (e_i)