내 Naive Bayes bag o 'words 모델을 프로토 타이핑하고 있으며, 기능 확률 계산에 대한 질문이있었습니다.
두 가지 클래스가 있다고 가정 해 봅시다. 모든 사람들이 사용하는 스팸이기 때문에 스팸과 스팸 아님을 사용합니다. 그리고 "viagra"라는 단어를 예로 들어 봅시다. 트레이닝 세트에 10 개의 이메일, 5 개의 스팸 및 5 개의 비 스팸이 있습니다. "viagra"는 5 개의 스팸 문서 모두에 나타납니다. 교육 문서 중 하나에 3 번 (내 질문에 대한 내용) 표시되므로 스팸으로 7 번 나타납니다. 스팸이 아닌 교육 세트에서는 1 회 나타납니다.
p (viagra | spam)를 추정하려면 간단히 다음과 같습니다.
p (viagra | 스팸) = 5 개의 스팸 문서에 viagra가 포함됨 / 5 개의 스팸 문서 총계 = 1
다시 말해, 한 문서가 비아그라를 한 번이 아니라 3 번 언급했다는 사실이 실제로 중요하지 않습니까?
편집 : 여기 저자가 방금 배치 한 접근 방식을 사용하는 블로그 게시물이 있습니다. http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
그리고 다음은 저자가 말한 블로그 글입니다 : p (viagra | spam) = 7 viagra 스팸 언급 / 8 총 언급 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply 순 베이 베이 분류기에서 문서 분류로의 문제
그리고 아래 답변 중 하나는 다음과 같아야합니다. p (viagra | spam) = 7 viagra 스팸에 대한 언급 / 스팸의 총 용어 수
누구든지 이것에 대한 의견을 제시하는 출처에 연결할 수 있습니까?