나는 2 개의 데이터 세트를 가지고 있는데, 하나는 탐지하고자하는 긍정적 인 인스턴스가 있고 다른 하나는 레이블이없는 인스턴스가 있습니다. 어떤 방법을 사용할 수 있습니까?
예를 들어, 구조화 된 이메일 특성 몇 가지를 기반으로 스팸 이메일 탐지를 이해하려고한다고 가정합니다. 스팸 이메일 1 개의 데이터 세트와 스팸 여부를 모르는 100000 개의 이메일 데이터 세트가 있습니다.
레이블이없는 데이터를 수동으로 레이블링하지 않고이 문제를 어떻게 해결할 수 있습니까?
레이블이없는 데이터에 스팸 비율에 대한 추가 정보가있는 경우 어떻게해야합니까 (즉, 레이블이없는 100000 개의 이메일 중 20-40 %가 스팸이라고 추정하는 경우)?