텍스트 분류기 교육 데이터 세트 제안

9

텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까?

Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에.

이 정보를 사용하여 해당 등급이 표시된 펄스를 권장 할 수 있습니다. 그러나 콘텐츠와 관련이없는 미리 정의 된 단어 모음을 사용하면 기능 벡터에 0이 가득 차고 카테고리도 콘텐츠와 관련이 없을 수 있습니다. 이러한 이유로 우리는 콘텐츠를 분류하지 않고 클러스터링하는 다른 솔루션을 시도했습니다.

감사 :)

— 압델 마블 라
소스

1

누구나 데이터 세트를 추천하기 전에 문제에 대한 자세한 내용이 필요하다고 생각합니다.

— Neil Slater

3

무슨 목적을 위해? 스팸 필터링? 감정 분석? 명확한 목적이 없으면 데이터 세트를 제안하기 가 매우 어렵습니다.

— lsdr

@lsdr 답변을 살펴보면 질문에 더 자세한 내용이 필요하지 않은 것 같습니다.

— Amir Ali Akbari

@AmirAliAkbari 나는 그들이 편집 후 온 것 같아요. 어쨌든 나는 투표권을 철회했다.

— Rubens

이 질문에 대한 더 적절한 장소는 opendata.stackexchange.com

— sheldonkreger

14

텍스트 분류에 대한 일부 표준 데이터 세트는 20- 뉴스 그룹, 로이터 (8 및 52 클래스) 및 WebKb입니다. 당신은 그들 모두를 여기에서 찾을 수 있습니다 .

— 데바 시스
소스

고마워 :), 나는 전에 그것을 이미 방문했지만 분류가 충분히 약하지 않다는 것을 알았거나 내 내용과 관련이 없을 수도 있음

— Abdelmawla

7

텍스트 분류 연구에 가장 널리 사용되는 테스트 모음 중 하나입니다 (아래 링크). 여러 번 사용했습니다. 탐험을 즐기십시오 :)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ 또는 http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

— 함맘
소스

5

UC Irvine 에서 무료로 제공하는 많은 데이터 세트 가 있습니다 . 이러한 데이터 세트 중에 작업에 도움이 될 수있는 수십 개의 텍스트 데이터 세트 가 있습니다.

그것들은 일종의 일반적인 데이터 세트이므로, 목적에 따라 모델을 훈련시키는 유일한 데이터로 사용해서는 안됩니다.

— lsdr
소스

1

위의 제안 외에도 모델을 테스트하기 위해 벤치 마크와 함께 다양한 데이터 세트를 포함하는 분류 및 클러스터링 작업 을 위한 벤치마킹 텍스트 모음 인 매우 유용한 pdf 가 있습니다. 여기에는 20ng 수집, 로이터 및 위에서 제안한 많은 데이터 세트가 포함됩니다. 도움이 되길 바랍니다!

— 히마 바르샤
소스