NLP-Gazetteer가 사기꾼입니까?


16

NLP에는 Gazetteer주석을 만드는 데 매우 유용한 개념 이 있습니다. 내가 이해하는 한도에서는:

가제트는 도시, 조직, 요일 등과 같은 엔티티의 이름을 포함하는 일련의 목록으로 구성됩니다.이 목록은 예를 들어 명명 된 엔티티 인식 작업과 같은 텍스트에서 이러한 이름의 발생을 찾는 데 사용됩니다.

따라서 본질적으로 조회입니다. 이런 종류의 속임수가 아닌가? Gazetteer명명 된 엔터티를 탐지 하는 데 a 를 사용하면 별다른 문제가 없습니다 Natural Language Processing. 이상적으로는 NLP기술을 사용하여 명명 된 엔터티를 감지하고 싶습니다 . 그렇지 않으면 정규식 패턴 매처보다 어떻게 낫습니까?


2
비사 전적 조회 솔루션을 사용하도록 특별히 설계된 경우가 아니라면 속임수라고 부르지 않습니다. 또한 전통적인 NLP라고 부르지는 않겠지 만 문제에 대한 간단한 해결책에서 얻을 수있는 실질적인 마일리지를 간과해서는 안됩니다.
카일.

1
아마도 그것을 사용하여 지명 된 엔터티 인식자를 훈련시킬 수 있습니다. 당신의 공보가 말뭉치가 아닌 개체들에 대해 무엇을 하시겠습니까?
Emre

나는 pos 태그와 명사 청킹을 올바르게 사용하여 가제트가 필요하지 않기를 바랐습니다. 가능합니까?
AbtPst

2
업계에서는 부정 행위와 같은 것이 없습니다. :-) 그러나 어쨌든 "일반적인 접근"을 원한다면 NE가 나타나는 문맥을 배우고 더 많은 NE를 배우기 위해 손으로 주석이 달린 데이터, 즉 시드로 시작해야합니다.
Adam Bittlingmayer

답변:


15

Gazetteer 또는 의도적으로 고정 된 크기 기능의 다른 옵션은 고정 된 크기 의 문제, 예를 들어 고정 된 체내의 NER 또는 POS 태깅 또는 기타 다른 문제가있는 경우 학술 논문 에서 매우 인기있는 접근 방법으로 보입니다 . 사용하려는 유일한 기능이 Gazetteer와 일치하지 않는 한 부정 행위로 간주하지 않습니다.

그러나 훈련하는 동안 사전에 의존하는 모든 종류의 NLP 모델을 훈련 할 때 모든 관심 대상을 공보에 포함시킬 수 없다면 초기 테스트보다 실제 성능이 떨어질 수 있습니다 (그리고 왜 당신은 훈련 된 모델이 특정 시점에서 지형지 물에 의존하고 다른 지형지 물이 너무 약하거나 설명 적이 지 않은 경우 새로운 관심 객체가 인식되지 않기 때문에 해당 모델이 필요합니까?

모델에 Gazetteer를 사용하는 경우 해당 기능에 모델 균형을 맞추는 카운터 기능이 있어야합니다. 따라서 간단한 사전 일치가 긍정적 인 클래스의 유일한 기능이 아니며 더 중요한 것은 Gazetteer가 긍정적 인 예뿐만 아니라 부정적인 예와도 일치합니다).

예를 들어, 모든 사람 이름에 대한 무한한 변형이 있다고 가정하여 일반 사람 NER를 관련시키지 않지만 이제는 텍스트에 언급 된 객체가 노래를 할 수 있는지 여부를 결정하려고합니다. 당신은 Person gazetteer에 포함되는 기능에 의존 할 것입니다. 다음, 당신의 동사 중심의 기능을 추가 할 것 " 동사 노래의 주제는 "그리고 네 배가하고 술에 취해 동료 누가 때 아마, 새와 같은 개체의 모든 종류에서 당신에게 당신의 배를 오탐 (false positive)을 줄 것이라고 생각한다그는 노래를 할 수 있지만 (솔직히 말하면 할 수는 없지만) 동사 중심의 기능은 동물이나 다른 물건이 아닌 사람에게 긍정적 인 '가수'등급을 부여하기 위해 사람의 가제트와 균형을 잡을 것입니다. 그러나 술 취한 연기자의 경우는 해결되지 않습니다.


4

엔터티 목록을 사용하면 몇 가지 단점이 있습니다.

  • 리스트가 닫힙니다
  • 이 목록은 상황에 맞지 않습니다. "백악관"과 "백악관"을 구별하려면 상황이 필요합니다.
  • 리스트 구축에는 많은 노력이 필요합니다
  • 목록에 오류가있을 수도 있습니다.
  • 부정 행위처럼 느껴집니다 (또는 목록에 NLP 통찰력이 사용되지 않음).

@emre가 제안한 방향으로 이동하여 분류자를 배우기 위해 목록을 사용하여 이러한 단점에 대처할 수 있습니다.

예를 들어, 엔터티 근처에서 토큰을 사용하고 "I live at X"는 장소를 나타내는 지표이고 "X와 이야기했습니다"는 사람의 지표라는 규칙을 배울 수 있습니다. 당신은 규칙의 명중에 의해 당신의 목록을 증가시켜이 게임을 몇 라운드 할 수 있고 더 많은 규칙을 배우기 위해 새로운 목록을 사용할 수 있습니다.

이 학습에서 데이터에 노이즈가 발생하므로 대부분의 경우 학습이 매우 간단해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.