비공식 텍스트에서 명명 된 엔터티 인식을위한 데이터 집합

18

나는 비공식 텍스트 (트위트와 비슷한 것)에서 명명 된 엔티티를 추출하기 위해 모델을 훈련시키기 위해 레이블이 지정된 데이터 세트를 검색하고 있습니다. 대문자 및 문법이 종종 내 데이터 세트의 문서에서 부족하기 때문에 오늘날의 최신 엔티티 인식 시스템이라는 뉴스 기사 및 저널 항목보다 약간 "비공식적 인"도메인 데이터를 찾고 있습니다. 훈련.

어떤 추천? 지금까지 나는 여기에 게시 된 트위터에서 50k 토큰을 찾을 수있었습니다 .

dataset nlp

— 매디슨 메이
소스

2

opendata.stackexchange.com에

— Air

@Madison May. 데이터 세트를 찾았습니까? 비슷한 것을 찾고 있습니다. 감사.

— ahoffer

나는 U. Washington의 트위터 ner corpus (원래 게시물에 링크 됨)와 관련이있었습니다.

— Madison May

태그 텍스트 (영어 신문 또는 태그 텍스트)의

— 코퍼

관련 주석이 달린 영어 코퍼스가 있습니까?

— Achyuta nanda sahoo

6

내가 이해하는 것처럼 샘플 데이터 세트에서 찾고있는 속성은 다음과 같습니다.

텍스트 데이터
비공식적이어야합니다. 즉 오타, 속어 및 기본적으로 전문적으로 편집되지 않은 항목이 있어야합니다.
트위터 이외의 것 (나는 당신을 비난하지 않습니다. 트위터는 텍스트 마이닝의 예제 데이터 소스를 유용하지만 과도하게 사용했습니다)

몇 가지 권장 사항은 다음과 같습니다.

SpamAssassin corpus의 전자 메일 - "ham"(스팸이 아닌) 및 스팸 데이터 세트를 모두 사용할 수 있습니다.
Sina Weibo 사용자의 마이크로 블로그에서 스크랩 한 데이터 인 UCI의 microblogPCU 데이터 세트 -원시 텍스트 데이터는 중국어와 영어의 혼합입니다 (중국어의 기계 번역을 수행하거나 영어로만 필터링하거나 사용할 수 있음). 그대로)
Amazon Commerce , UCI에서 데이터 세트 검토
bag-o-words 데이터 세트 내에서 Enron 이메일을 사용해보십시오
스물 뉴스 그룹 데이터 세트
이 멋진 SMS 스팸 모음
인터넷에서 언제든지 자신의 텍스트 데이터를 긁어 낼 수 있습니다. 나는 확실히 R (에 사용할 수있는 언어 나 사용하고있는 통계 패키지하지만, XPath에 기반 패키지 아니에요 rvest, scrapeR이러한 목표를 달성하기 위해, 등) 및 파이썬

— 핵 R
소스

1

이름이 지정된 엔티티로 주석이 달린 데이터 세트가 있습니까? 나는 그것이 OP가 찾고있는 것이라고 생각합니다.

— Mr. Phil

3

이것들을 확인하십시오 :

정보 추출을위한 테스트 도메인 리포지토리 : http://www.isi.edu/info-agents/RISE/repository.html

DBpedia : http://wiki.dbpedia.org/Downloads32 ( 거울 )

링크 업데이트 :

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— 스리 지트
소스

1

더 이상 작동하지 않는 링크를 업데이트하십시오.

— Mr. Phil

0

내가 사용한 소스 중 일부 :

클래식 CONLL 코퍼스 : CONLL 데이터 셋
시도해 볼 가치가있는 하나의 Kaggle 소스 : Kaggle NER Corpus
OntoNotes 릴리즈 5.0 : Onto Notes
바이오 개체 인식 작업 : 바이오 엔티티
다른 이메일 관련 데이터 세트 : Enron 이메일 데이터 세트

이 데이터 세트가 귀하의 작업에 큰 도움이 될 것이라고 생각합니다

— 얀 란얀
소스