나는 비공식 텍스트 (트위트와 비슷한 것)에서 명명 된 엔티티를 추출하기 위해 모델을 훈련시키기 위해 레이블이 지정된 데이터 세트를 검색하고 있습니다. 대문자 및 문법이 종종 내 데이터 세트의 문서에서 부족하기 때문에 오늘날의 최신 엔티티 인식 시스템이라는 뉴스 기사 및 저널 항목보다 약간 "비공식적 인"도메인 데이터를 찾고 있습니다. 훈련.
어떤 추천? 지금까지 나는 여기에 게시 된 트위터에서 50k 토큰을 찾을 수있었습니다 .
2
opendata.stackexchange.com에
—
Air
@Madison May. 데이터 세트를 찾았습니까? 비슷한 것을 찾고 있습니다. 감사.
—
ahoffer
나는 U. Washington의 트위터 ner corpus (원래 게시물에 링크 됨)와 관련이있었습니다.
—
Madison May
관련 주석이 달린 영어 코퍼스가 있습니까?
—
Achyuta nanda sahoo