Naive Bayes는 언제 SVM보다 성능이 좋습니까?


17

필자가보고있는 작은 텍스트 분류 문제에서 Naive Bayes는 SVM 이상의 성능을 보였으며 매우 혼란 스러웠습니다.

하나의 알고리즘이 다른 알고리즘의 승리를 결정하는 요인이 궁금합니다. SVM에서 Naive Bayes를 사용할 필요가없는 상황이 있습니까? 누군가 이것에 빛을 비출 수 있습니까?


1
멋지고이 링크에 따라 관련 튜토리얼
Q12

답변:


27

주어진 데이터 세트에 가장 적합한 분류 방법에 대한 단일 답변은 없습니다 . 주어진 데이터 세트에 대한 비교 연구를 위해서는 항상 다른 종류의 분류기를 고려해야합니다. 데이터 세트의 속성이 주어지면 일부 방법을 선호 할 수있는 힌트가있을 수 있습니다. 그러나 가능하면 모두 실험 해 보는 것이 좋습니다.

NIVEC (Nive Bayes Classifier)와 SVM (Support Vector Machine)에는 각각에 대한 커널 기능 선택을 포함하여 다른 옵션이 있습니다. 둘 다 매개 변수 최적화에 민감합니다 (즉, 다른 매개 변수 선택은 출력을 크게 변경할 수 있음) . 따라서 NBC가 SVM보다 성능이 우수하다는 결과가 나옵니다. 선택한 매개 변수에만 해당됩니다. 그러나 다른 매개 변수를 선택하면 SVM의 성능이 향상 될 수 있습니다.

일반적으로 NBC의 독립성 가정이 데이터 세트의 변수에 의해 충족되고 클래스 중첩 정도가 작은 경우 (즉, 잠재적 선형 결정 경계) NBC가 양호하게 달성 될 것으로 예상됩니다. 예를 들어, 래퍼 기능 선택을 사용하여 최적화 한 일부 데이터 세트의 경우 NBC는 다른 분류자를 물리 칠 수 있습니다. 비슷한 성능을 달성하더라도 고속으로 인해 NBC가 더 바람직합니다.

요약하자면, 한 분류에서 다른 분류보다 성능이 좋지 않은 분류 방법이 다른 분류 방법에서 심각하게 실패 할 수 있으므로 분류 방법을 선호해서는 안됩니다. ( 이것은 데이터 마이닝 문제에서 일반적입니다 ).


7
(+1) 무료 점심 정리 라고도 함 . 나는 매개 변수 민감도 비교에 완전히 동의하지는 않지만 (단일 의사 결정 트리는 IMHO의 가장 민감한 접근법 중 하나입니다), 우리는 여기에 대해 논의해서는 안됩니다 :).
steffen

@steffen, 소중한 의견 감사합니다. 모델을 최적화하는 방법에는 여러 가지가 있으며 모든 경우에 어떤 모델이 더 의미가 있는지 일반화 할 수 없다는 데 동의합니다. 기능 선택의 경우 DT는 NBC보다 덜 민감하지만 일반적으로는 그렇지 않을 수 있습니다. 귀하의 의견을 고려하여 답변을 편집하겠습니다. 원하시는 경우 편집 할 수도 있습니다. 정말 고마워 :).
soufanom

3
매개 변수 감도에 대한 설명은 +1입니다. 또한 SVM을 뒷받침하는 많은 이론이 고정 커널이있는 모델에 적용되므로 이론적으로 많은 부분이 더 이상 적용되지 않는 하이퍼 매개 변수를 최적화하려고 시도하자마자 ( 매우 신중하게 수행해야 함)주의 해야합니다 .
Dikran Marsupial
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.