텍스트 분류기 교육 데이터 세트 제안


9

텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까?

Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에.

이 정보를 사용하여 해당 등급이 표시된 펄스를 권장 할 수 있습니다. 그러나 콘텐츠와 관련이없는 미리 정의 된 단어 모음을 사용하면 기능 벡터에 0이 가득 차고 카테고리도 콘텐츠와 관련이 없을 수 있습니다. 이러한 이유로 우리는 콘텐츠를 분류하지 않고 클러스터링하는 다른 솔루션을 시도했습니다.

감사 :)


1
누구나 데이터 세트를 추천하기 전에 문제에 대한 자세한 내용이 필요하다고 생각합니다.
Neil Slater

3
무슨 목적을 위해? 스팸 필터링? 감정 분석? 명확한 목적이 없으면 데이터 세트를 제안하기 가 매우 어렵습니다.
lsdr

@lsdr 답변을 살펴보면 질문에 더 자세한 내용이 필요하지 않은 것 같습니다.
Amir Ali Akbari

@AmirAliAkbari 나는 그들이 편집 후 온 것 같아요. 어쨌든 나는 투표권을 철회했다.
Rubens

이 질문에 대한 더 적절한 장소는 opendata.stackexchange.com
sheldonkreger

답변:


14

텍스트 분류에 대한 일부 표준 데이터 세트는 20- 뉴스 그룹, 로이터 (8 및 52 클래스) 및 WebKb입니다. 당신은 그들 모두를 여기에서 찾을 수 있습니다 .


고마워 :), 나는 전에 그것을 이미 방문했지만 분류가 충분히 약하지 않다는 것을 알았거나 내 내용과 관련이 없을 수도 있음
Abdelmawla


5

UC Irvine 에서 무료로 제공하는 많은 데이터 세트 가 있습니다 . 이러한 데이터 세트 중에 작업에 도움이 될 수있는 수십 개의 텍스트 데이터 세트 가 있습니다.

그것들은 일종의 일반적인 데이터 세트이므로, 목적에 따라 모델을 훈련시키는 유일한 데이터로 사용해서는 안됩니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.