Gazetteer 또는 의도적으로 고정 된 크기 기능의 다른 옵션은 고정 된 크기 의 문제, 예를 들어 고정 된 체내의 NER 또는 POS 태깅 또는 기타 다른 문제가있는 경우 학술 논문 에서 매우 인기있는 접근 방법으로 보입니다 . 사용하려는 유일한 기능이 Gazetteer와 일치하지 않는 한 부정 행위로 간주하지 않습니다.
그러나 훈련하는 동안 사전에 의존하는 모든 종류의 NLP 모델을 훈련 할 때 모든 관심 대상을 공보에 포함시킬 수 없다면 초기 테스트보다 실제 성능이 떨어질 수 있습니다 (그리고 왜 당신은 훈련 된 모델이 특정 시점에서 지형지 물에 의존하고 다른 지형지 물이 너무 약하거나 설명 적이 지 않은 경우 새로운 관심 객체가 인식되지 않기 때문에 해당 모델이 필요합니까?
모델에 Gazetteer를 사용하는 경우 해당 기능에 모델 균형을 맞추는 카운터 기능이 있어야합니다. 따라서 간단한 사전 일치가 긍정적 인 클래스의 유일한 기능이 아니며 더 중요한 것은 Gazetteer가 긍정적 인 예뿐만 아니라 부정적인 예와도 일치합니다).
예를 들어, 모든 사람 이름에 대한 무한한 변형이 있다고 가정하여 일반 사람 NER를 관련시키지 않지만 이제는 텍스트에 언급 된 객체가 노래를 할 수 있는지 여부를 결정하려고합니다. 당신은 Person gazetteer에 포함되는 기능에 의존 할 것입니다. 다음, 당신의 동사 중심의 기능을 추가 할 것 " 동사 노래의 주제는 "그리고 네 배가하고 술에 취해 동료 누가 때 아마, 새와 같은 개체의 모든 종류에서 당신에게 당신의 배를 오탐 (false positive)을 줄 것이라고 생각한다그는 노래를 할 수 있지만 (솔직히 말하면 할 수는 없지만) 동사 중심의 기능은 동물이나 다른 물건이 아닌 사람에게 긍정적 인 '가수'등급을 부여하기 위해 사람의 가제트와 균형을 잡을 것입니다. 그러나 술 취한 연기자의 경우는 해결되지 않습니다.