간단하게하기 위해 스팸 / 스팸이 아닌 전자 메일의 고전적인 예를 작업하고 있다고 가정하겠습니다.
20000 개의 이메일이 있습니다. 이 중 2000은 스팸이라는 것을 알고 있지만 스팸이 아닌 전자 메일의 예는 없습니다. 나머지 18000이 스팸인지 아닌지를 예측하고 싶습니다. 이상적으로, 내가 찾은 결과는 전자 메일이 스팸 일 확률 (또는 p- 값)입니다.
이 상황에서 현명한 예측을하기 위해 어떤 알고리즘을 사용할 수 있습니까?
현재는 이메일이 알려진 스팸 이메일과 얼마나 유사한 지 알려주는 거리 기반 방법을 생각하고 있습니다. 어떤 옵션이 있습니까?
좀 더 일반적으로지도 학습 방법을 사용할 수 있습니까, 아니면 반드시 훈련 세트에 부정적인 경우가 있어야합니까? 감독되지 않은 학습 접근 방식으로 제한됩니까? 반 감독 방법은 어떻습니까?