텍스트 분류 문제를 해결해야합니다. 웹 크롤러는 특정 도메인의 웹 페이지를 크롤링하며 각 웹 페이지에 대해 특정 클래스에만 속하는지 여부를 확인하고 싶습니다. 즉,이 클래스를 Positive 호출하면 크롤링 된 각 웹 페이지는 Positive 클래스 또는 Non-Positive 클래스에 속합니다 .
Positive 클래스에 대한 대규모 교육용 웹 페이지가 이미 있습니다 . 그러나 가능한 비 대표적 클래스에 대한 교육 세트를 만드는 방법 은 무엇입니까? 나는 기본적으로 그 클래스에 대해 모든 것을 사용할 수 있음을 의미합니다. Positive 클래스에 속하지 않는 임의의 페이지를 수집 할 수 있습니까 ? 텍스트 분류 알고리즘의 성능 (Naive Bayes 알고리즘 사용을 선호 함)은 Non-Positive 클래스에 대해 선택한 웹 페이지에 따라 크게 달라집니다 .
그럼 어떻게해야합니까? 누군가 나에게 조언을 해 줄 수 있습니까? 대단히 감사합니다!