명명 된 엔터티 인식을위한 Word2Vec


25

Google의 word2vec 구현을 사용하여 명명 된 엔티티 인식 시스템을 구축하려고합니다. 구조를 통해 역 전파되는 재귀 신경망은 명명 된 엔티티 인식 작업에 적합하지만 해당 유형의 모델에 대한 적절한 구현 또는 적절한 자습서를 찾을 수는 없습니다. 비정형 코퍼스로 작업하고 있기 때문에 NLTK 및 이와 유사한 도구의 표준 NER 도구는 성능이 매우 떨어지며 자체 시스템을 훈련해야 할 것 같습니다.

요컨대, 이런 종류의 문제에 어떤 리소스를 사용할 수 있습니까? 표준 재귀 신경망 구현이 있습니까?


코퍼스에서 스탠포드 NER 교육을 시도 했습니까? 여기 튜토리얼이 있습니다 .
Emre

나는 그것이 어떻게되는지보기 위해 가야한다.
Madison May 2006 년

그래도 상대적으로 작은 레이블이 지정된 데이터 세트에 액세스하고 레이블이없는 데이터를 최대한 활용해야하므로 word2vec 기능 또는 이와 유사한 기능을 사용하고 싶습니다.
Madison May 2006 년

답변:



7

최근 두 논문에서는이 문제를 해결하기 위해 CharWNN이라는 딥 러닝 아키텍처를 사용합니다. CharWNN은 영어 말뭉치의 품사 (POS) 에 대한 최신 결과 (수제 기능없이) 를 얻기 위해 처음 사용되었습니다 .

동일한 저자 의 두 번째 논문 은 단어가 10 개의 명명 된 엔티티 클래스에 속하는지 예측하기 위해 동일한 (또는 유사한) 아키텍처를 사용하며, 최첨단 결과를 보여줍니다.


흥미 롭군 이것을 공유해 주셔서 감사합니다. 왜 그들이 영어 코 도라에서이 접근법을 테스트하지 않았는지 궁금합니다.
MaticDiba


1

NER에 단어 벡터를 사용하는 방법에 대한 아이디어는 다음과 같습니다.이 방법은 주로 감독되지 않은 word2vec 중심 접근 방식을 채택합니다.

  1. 학습 한 단어 또는 GoogleNews-vectors-negative300.bin과 같은 상용 단어 집합이 있으면 벡터 공간에서 클러스터를 찾습니다. 이 클러스터는 기본적으로 다양한 명명되지 않은 개념에 대한 정의입니다.
  2. 최소한의 감독만으로도 이름없는 클러스터를 인간의 지식과 일치하도록 매핑 / 변환하여 알려진 단어 벡터 및 이름없는 개념을 기반으로하는 이름 지정된 개념을 만들 수 있습니다. 예를 들어, 메서드 findCluster(['joy', 'surprise', 'disgust', 'trust', 'fear', 'sadness', 'anger', 'anticipation'])는 주로 감정과 관련된 수백 개의 단어가 포함 된 목록을 반환 할 수 있습니다. 이 목록의 이름을 'emotion'으로 지정하면 벡터 공간을 기반으로하는 명명 된 개념 'emotion'이 있습니다.
  3. 벡터 수학을 수행하여 주어진 두 개념 사이의 중간 개념을 찾을 수도 있습니다. 예를 들어, 벡터 수학은 '놀람'과 '혐오'라는 두 단어가 주어지면 실망, 놀라움, 실망, 놀라움, 당황, 격변, 불신, 충격 등 두 단어 사이에서 발견된다는 것을 알 수 있습니다. 당신은 개념 사이의 관계를 구축합니다.
  4. 위의 과정을 반복하여 평일, 모든 감정, 행복한 감정, 차량 등과 같은 다양한 유형의 명명 된 concpts를 만들 수 있습니다.
  5. 명명 된 개념의 계층을 구축 한 후에는 명명 된 개념으로 보강 된 텍스트 코퍼스에서 RNN을 교육 할 수 있으므로 'brown fox jumps'도 '{color} {animal} {action}'등입니다. 이런 식으로 RNN은 감독되지 않은 방식으로 일부 기초 문법을 배울 수 있어야합니다.
  6. 위로부터 충분히 강력한 문법을 ​​구축했다면 일부 NER 작업에 적용 할 수 있어야합니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.