데이터에서 미묘한 관계를 어떻게 표현합니까?


20

"A"는 "B"및 "C"와 관련이 있습니다. 이 맥락에서 "B"와 "C"도 관련이 있다는 것을 어떻게 알 수 있습니까?

예:

최근 브로드 웨이 경기에 대한 몇 가지 헤드 라인이 있습니다.

  1. Al Pacino 주연의 David Mamet의 Glengarry Glen Ross, 브로드 웨이에서 개장
  2. 'Glengarry Glen Ross'의 Al Pacino : 비평가들은 어떻게 생각 했습니까?
  3. Al Pacino, Broadway Turn에 대한 평가 부족
  4. 극장 검토 : Glengarry Glen Ross는 별을 열심히 판매하고 있습니다
  5. 글렌 가리 글렌 로스; 누가 Klieg 조명을 죽였습니까?

문제:

이러한 레코드에 대해 퍼지 문자열 일치를 실행하면 인간 독자가 훨씬 더 큰 데이터 세트의 컨텍스트에서 선택할 수 있지만 일부 관계는 설정되지만 다른 관계는 설정되지 않습니다.

# 3이 # 4와 관련이 있다는 것을 어떻게 알 수 있습니까? 둘 다 # 1에 쉽게 연결할 수 있지만 서로 연결할 수는 없습니다.

이런 종류의 데이터 또는 구조에 대해 (구글 가능) 이름이 있습니까? 어떤 알고리즘을 찾고 있습니까?

골:

1,000 헤드 라인, 자동으로 이들 5 개 항목이 모두 제안 시스템을 감안할 때 아마도 같은 일에 대한합니다.

솔직히 말하면, 내가이 문제를 올바르게 표현하는 방법을 잃어버린 것을 프로그래밍 한 지 너무 오래되었습니다. (알아야 할 내용이 무엇인지 모르겠습니다.)

이것은 개인 프로젝트이며 파이썬으로 작성 중입니다. 도움, 조언 및 조언에 미리 감사드립니다!


1
자연 언어 해석 및 / 또는 다른 확률 기법과 같은 소리가 필요합니다
JK합니다.

2
이것은 위대한 질문입니다!
Michael Brown

나는 이것이 프롤로그에서 이것을 구현할 수있는 시스템을 보았다고 생각한다.
FrustratedWithFormsDesigner

1
@FrustratedWithFormsDesigner 논리 프로그래밍통일을 생각하고 있다고 생각 합니다 ..?
Izkata

답변:



7

시맨틱 스의 세계에 들어서고 있습니다. 텍스트 를 구문 분석하고 자유 형식 문서를 구문 분석하고 사람, 장소, 사물, 날짜 및 개념을 포함하여 발생하는 주요 주제를 리턴하는 주요 개념 ( 시맨틱 API에 대한 빠른 검색)을 가져 오는 공용 서비스가 있습니다. . 더 나은 것 중 일부는 [RDF]라는 형식으로 반환됩니다.

이 작업을 수행 할 수있는 자체 시스템을 구축하려는 경우이 필드는 자연어 처리 이며 매우 흥미로운 토끼 구멍입니다.


4

가능하다면 헤드 라인과 함께 이야기를 얻으십시오. 헤드 라인은 때때로 "귀엽고"논의되는 내용에 대한 접선 참조 만 할 수 있습니다. 이것은 ( 전역 적 맥락 을 가지고 있기 때문에) 인간과는 잘 작동 하지만 NLP와는 잘 작동하지 않습니다.

Karl Bielefeldt의 답변에서 언급했듯이 클러스터링은 좋은 접근 방법이지만 악마는 세부 사항에 있습니다. 당신은 당신의 문제 / 사용자 공간에 맞는 클러스터링 방식을 선택할 필요가 없습니다, 당신은 또한 파악해야 어떤 클러스터되고있다.

저의 배경은 80 ~ 90 년대 정보 검색 (IR)에 있으며, 유사 검색중심 기반 클러스터링 에 중점을 두었습니다 . 우리의 문서 는 기본적으로 용어 목록과 문서에서 상대적 중요성을 나타내는 가중 속성 벡터 로 표현되었습니다 . 이 방법은 효과적 일 수 있지만 (일부 모음에서는 다른 모음보다 낫지 만) 짧은 헤드 라인에 문제가 있습니다. 그러나 전체 문서를 사용하는 경우 훨씬 더 풍부한 용어 목록 (및 아마도 더 중요한 의미)을 얻게되며 해당 용어 목록을 사용하면 헤드 라인이있을 때 연결을보다 쉽게 ​​찾을 수 있습니다 (예 : 계산). "귀엽다".

벡터 생성 문제 등을 원한다면 내 이메일이 내 프로필에 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.