Naive Bayes 분류기는 분류 문제에 널리 사용됩니다. 다음과 같은 여러 가지 이유가 있습니다.
- "Zeitgeist"-약 10 년 전에 스팸 필터가 성공한 후 널리 인식
- 쓰기 쉽다
- 분류기 모델은 빠른 빌드
- 모델을 다시 만들지 않고도 새로운 교육 데이터로 모델을 수정할 수 있습니다
그러나 이들은 '순진'합니다. 즉, 기능이 독립적이라고 가정합니다. 이는 최대 엔트로피 분류기와 같은 다른 분류기와 대조됩니다 (계산 속도가 느림).
독립성 가정은 일반적으로 가정 할 수 없으며 스팸 필터 예를 포함하여 많은 경우 (대부분의 경우), 단순히 잘못된 것입니다.
그렇다면 왜 Naive Bayes Classifier가 기능이 서로 독립적이지 않은 경우에도 여전히 그러한 애플리케이션에서 우수한 성능을 발휘합니까?