NLTK의 NER 관련 도움말


12

파이썬을 사용하는 동안 NLTK에서 한동안 일했습니다. 내가 직면하고있는 문제는 NLTK의 NER를 내 사용자 정의 데이터로 훈련시키는 데 도움이되지 않는다는 것입니다. 그들은 MaxEnt를 사용하여 ACE 말뭉치에 대해 교육했습니다. 웹에서 많이 검색했지만 NLTK의 NER를 훈련시키는 데 사용할 수있는 방법을 찾지 못했습니다.

누구든지 NLTK NER 교육에 사용되는 교육 데이터 세트 형식으로 안내 할 수있는 링크 / 기사 / 블로그 등을 제공 할 수 있다면 특정 형식으로 데이터 세트를 준비 할 수 있습니다. 그리고 내가 링크 / 기사 / 블로그 등으로 연결되면 내 데이터에 대한 NLTK의 NER 교육에 도움이 될 수 있습니다.

이것은 광범위하게 검색되고 가장 적은 질문입니다. NER와 협력하는 미래의 누군가에게 도움이 될 수 있습니다.


답변:


4

일반적으로 정보 추출 과 관련된 모델 교육 및 명명 된 NER (개체 인식 / 해결) (NER) 는 다음 URL에서 온라인으로 제공 되는 NLTK Book의 7 장 에 자세히 설명되어 있습니다. http : //www.nltk .org / book / ch07.html .

또한 교차 검증 사이트 에서 관련 답변 을 유용하게 사용할 수 있다고 생각합니다 . NER 및 관련 주제에 대한 관련 소스 와 다양한 관련 소프트웨어 도구 에 대한 많은 참조가 있습니다.


그들은 NER 모델을 맞춤형 데이터로 훈련시키는 방법을 언급하지 않습니다. 어떻게 할 수 있습니까?
히마 바르샤

1
@HimaVarsha 저는이 분야의 전문가가 아닙니다. 그러나 ... NLTK NER 모델은 conll2000 코퍼스 에 대해 사전 교육을 받았 으므로 NLTK 서적에 정보가 없다고 생각합니다 . 다음 리소스를 확인하십시오. 1. nltk-trainer.readthedocs.io (대부분 필요한 것, 아마도 훈련 IOB 청크 섹션). 2. sujitpal.blogspot.com/2012/11/… (유용 할 수도 있음). 3. nlp.stanford.edu/software/crf-faq.shtml#a(Stanford NER 소프트웨어를 사용하거나 사용하기로 결정한 경우).
Aleksandr Blekh 2016

stanfordcrf 구현에는 사용자 정의 데이터가 필요하지만 NTLK NER는 사전 훈련 된 상태입니다. Training IOB Chunkers가 딱 맞습니다. 아니면 NER도합니까?
히마 바르샤

@HimaVarsha 받고있는 조언에 더주의를 기울이십시오. 위의 링크 # 2를 통해 게시물을주의 깊게 읽으면 코드가 NER 모델 교육과 실행을 모두 수행한다는 것을 알 수 있습니다. 위의 조언을 넘어서 당신을 도울 수 있다고 생각하지 않습니다.
Aleksandr Blekh


1

이 튜토리얼이 매우 유용하다는 것을 알았 습니다. Python으로 자신의 명명 된 엔티티 인식기를 작성하기위한 완전한 안내서 그는 Groningen Meaning Bank (GMB) 코퍼스를 사용하여 NER 청크를 훈련시킵니다.

그런 다음 같은 사람이이 자습서를 확인할 수 있습니다 . 큰 데이터 세트를 사용하여 NER 시스템 교육 scikit을 사용하여 시스템 성능을 향상시키는 방법을 배웁니다.

마지막으로 정말 유용한 튜토리얼을 찾을 수 있습니다 : NLTK tutorial 이 사람은 많은 주제 (ML, NLP, Python ...)에 많은 튜토리얼이있는 YouTube 채널을 가지고 있습니다

도움이 되길 바랍니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.