비공식 텍스트에서 명명 된 엔터티 인식을위한 데이터 집합


18

나는 비공식 텍스트 (트위트와 비슷한 것)에서 명명 된 엔티티를 추출하기 위해 모델을 훈련시키기 위해 레이블이 지정된 데이터 세트를 검색하고 있습니다. 대문자 및 문법이 종종 내 데이터 세트의 문서에서 부족하기 때문에 오늘날의 최신 엔티티 인식 시스템이라는 뉴스 기사 및 저널 항목보다 약간 "비공식적 인"도메인 데이터를 찾고 있습니다. 훈련.

어떤 추천? 지금까지 나는 여기에 게시 된 트위터에서 50k 토큰을 찾을 수있었습니다 .



@Madison May. 데이터 세트를 찾았습니까? 비슷한 것을 찾고 있습니다. 감사.
ahoffer

나는 U. Washington의 트위터 ner corpus (원래 게시물에 링크 됨)와 관련이있었습니다.
Madison May


관련 주석이 달린 영어 코퍼스가 있습니까?
Achyuta nanda sahoo

답변:


6

내가 이해하는 것처럼 샘플 데이터 세트에서 찾고있는 속성은 다음과 같습니다.

  1. 텍스트 데이터
  2. 비공식적이어야합니다. 즉 오타, 속어 및 기본적으로 전문적으로 편집되지 않은 항목이 있어야합니다.
  3. 트위터 이외의 것 (나는 당신을 비난하지 않습니다. 트위터는 텍스트 마이닝의 예제 데이터 소스를 유용하지만 과도하게 사용했습니다)

몇 가지 권장 사항은 다음과 같습니다.

  1. SpamAssassin corpus의 전자 메일 - "ham"(스팸이 아닌) 및 스팸 데이터 세트를 모두 사용할 수 있습니다.
  2. Sina Weibo 사용자의 마이크로 블로그에서 스크랩 한 데이터 인 UCI의 microblogPCU 데이터 세트 -원시 텍스트 데이터는 중국어와 영어의 혼합입니다 (중국어의 기계 번역을 수행하거나 영어로만 필터링하거나 사용할 수 있음). 그대로)
  3. Amazon Commerce , UCI에서 데이터 세트 검토
  4. bag-o-words 데이터 세트 내에서 Enron 이메일을 사용해보십시오
  5. 스물 뉴스 그룹 데이터 세트
  6. 이 멋진 SMS 스팸 모음
  7. 인터넷에서 언제든지 자신의 텍스트 데이터를 긁어 낼 수 있습니다. 나는 확실히 R (에 사용할 수있는 언어 나 사용하고있는 통계 패키지하지만, XPath에 기반 패키지 아니에요 rvest, scrapeR이러한 목표를 달성하기 위해, 등) 및 파이썬

1
이름이 지정된 엔티티로 주석이 달린 데이터 세트가 있습니까? 나는 그것이 OP가 찾고있는 것이라고 생각합니다.
Mr. Phil


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.