단락에서 날짜와 관련된 이벤트 식별


13

단락에 주어진 날짜가 단락의 특정 사건 (구절)과 관련이 있음을 식별 하는 알고리즘 적 접근이 있습니까?

예를 들어, 다음 단락을 고려하십시오.

1970 년 6 월, 위대한 지도자는 맹세를했습니다. 그러나 국무 장관이 사망 한 1972 년 5 월 이후에야 그는 국토를 점령했다. 1980 년 중반까지 대중적인지지를 받았지만 그 이후로 그의 영향력은 떨어지기 시작했다.

알고리즘이 2 튜플 (날짜, 이벤트), 생성 할 수 # (결정 또는 확률) 거기에 이벤트가 온 발생한 것으로 단락에 의해, 암시, 날짜를 ? 위의 경우 :

  • (1970 년 6 월, 위대한 지도자가 맹세했습니다)
  • (1972 년 5 월 고삐를 인수 함)

    또는 더 나은

  • (1972 년 5 월, 위대한 지도자 가 고삐를 인수했습니다)
  • (1980 년 영향력 하락)

# 나중에 추가


2
이 문제에는 1) 날짜 추출, 2) 이벤트 추출 및 3) 두 데이터 세트를 상관시키는 세 단계가 포함되어 있습니다. 1) 확실히 가능하고 3)에 대한 괜찮은 휴리스틱을 상상할 수 있지만 2) 어떻게 해결할 것으로 기대합니까?
Raphael

1
@Raphael 내 질문의 좋은 표현입니다!
check123

글쎄, 당신은 2)에 관한 정보 있습니까, 예를 들어 제한된 재미있는 사건 (예 : 단어) 세트? 날짜가있는 한 모든 명사 / 동사 쌍을 추출 하시겠습니까?
Raphael

시간대도 추출하고 싶습니까? 귀하의 예에서 (<= May 1972, death of the Minister of State)또는을 고려하십시오 (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael

@Raphael (매우) 늦게 답변해서 죄송합니다. 2) 아니오. 일반화 된 접근법을 찾고 있습니다.
check123

답변:


4

일반적으로 텍스트에서 날짜 및 기타 시간 마커를 식별하는 문제를 시간 참조 추출 문제라고합니다 . 링크 된 검색은 이와 관련된 논문으로 연결됩니다.


문제의 이름이 있다는 것을 몰랐습니다. 더 자세히 살펴보고 가치있는 것을 찾을 수 있는지 확인하십시오. :)
check123

2

알고리즘 접근 방식을 요청하므로 알고리즘만큼 완고 할 것입니다. 이 질문을 이런 식으로 처리하는 것은 유감이지만, 이론적으로 복잡한 문제는 아닌 것 같으므로 가능한 접근법을 종합 할 것입니다.

질문 : 날짜 및 특정 이벤트에 대한 알고리즘 정의를 제공 할 수 있습니까?

가능한 경우 : 정의가 알고리즘이기 때문에 이것은 일종의 공식적인 문법 일 것입니다. 문제는 고려해야 할 모든 경우를 포착하도록 해당 문법을 조정하는 것입니다. ( 정식 문법 이 아닌 정확한 정의를 제공해 주시면 관심이 있습니다 )

당신이 할 수 없다면 : 적어도 당신은 예제를 생각해 낼 수 있습니다. 좋아, 그럼. 내가 생각할 수있는 최선의 방법은 머신 러닝 알고리즘으로, 날짜와 이벤트를 인식하기 위해 훈련해야합니다. (수동으로 주석이 달린 문장 모음 사용) 그러나 이것은 아마도 일을 할 수있는 큰 수제 정규 표현식과 비교할 때 상당히 중요합니다. 정말로, 정말로하고 싶다면 학습 알고리즘에 매개 변수로 제공되는 이런 종류의 정규 표현식이 가장 효율적이라고 생각하지만 기계 학습 전문가에게 더 잘 문의하십시오.

이것으로 행운을 빌어, 그것에 대해 이야기하는 것이 훨씬 쉽습니다 (두 경우 모두).


1
그건 내가 결합 날짜와 이벤트를 생각했다 확실히 약간의 확률 모델이 필요합니다.
Raphael

regexp를 사용하여 캡처 할 수있는 대부분의 형식의 날짜입니다. 프로그래밍 논리를 사용하면 날짜 주변의 문장을 추출 할 수 있습니다. 문제는 특정 문장 패턴, 예를 들어 고양이가 8 월 25 일에 마우스를 먹었을 때 모델이나 확률 분포가 필요하다는 것입니다. [<기사> <명사> <동사> <기사> <명사> <전치사> <날짜>] 다음 패턴의 하위 세트가 나타납니다. 고양이가 마우스를 먹었을 때 (우리의 경우) 확률이 z 인 y (8 월 25 일)
check123

@jmad 마음에 들지 않으면 게시물 형식을 조정할 수 있습니까? 따옴표가 아닌 인용 부호 (또는 자체 인용 부호)에 인용 스타일을 사용하는 것은 다소 혼란 스럽습니다.
uli
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.