순진 베이와 다항식 순진 베이의 차이점


29

전에 Naive Bayes 분류기를 다루었습니다 . 최근 에 Multinomial Naive Bayes 에 대해 읽었습니다 .

또한 사후 확률 = (이전 * 가능성) / (증거) .

Naive Bayes와 Multinomial Naive Bayes 사이에서 찾은 유일한 주요 차이점 (이 분류자를 프로그래밍하는 동안)은

나이브 베이 즈 다항식은 우도로 계산 단어 / 토큰 카운트 (랜덤 변수) 및 나이브 베이 즈 다음되는 우도 계산 :

여기에 이미지 설명을 입력하십시오

틀 렸으면 말해줘!


1
다음 PDF에서 많은 정보를 찾을 수 있습니다. cs229.stanford.edu/notes/cs229-notes2.pdf
B_Miner

Christopher D. Manning, Prabhakar Raghavan 및 Hinrich Schütze. " 정보 검색 소개. "2009, 텍스트 분류 및 Naive Bayes에 대한 13 장도 좋습니다.
Franck Dernoncourt

답변:


43

Naive Bayes 라는 일반 용어 는 각 기능의 특정 분포가 아니라 모델의 강력한 독립성 가정을 나타냅니다. Naive Bayes 모델은 사용하는 각 기능이 일부 클래스에서 조건부로 독립적 인 것으로 가정합니다. 좀 더 공식적으로, Naive Bayes 가정 하에서 클래스 c가 주어진 경우 ~ 피처를 관찰 할 확률을 계산 하려면 다음을 유지하십시오.f n에프1에프

(에프1,...,에프|기음)=나는=1(에프나는|기음)

이것은 Naive Bayes 모델을 사용하여 새로운 예제를 분류하려고 할 때 사후 확률이 작업하기가 훨씬 간단하다는 것을 의미합니다.

(기음|에프1,...,에프)(기음)(에프1|기음)...(에프|기음)

물론 이러한 독립성에 대한 가정은 거의 사실이 아니며, 일부 모델이 왜 "아이디어 베이"모델로 언급 되었는가를 설명 할 수 있지만 실제로 Naive 베이 즈 모델은 복잡한 작업에서도 놀랍도록 잘 수행되었습니다. 독립 가정은 거짓입니다.

지금까지 각 기능의 분포에 대해서는 언급하지 않았습니다. 즉, 정의하지 않은 상태로 두었습니다 . 다항식 나이브 베이 즈 (Multinomial Naive Bayes) 라는 용어 는 각 가 다른 분포가 아닌 다항 분포 라는 것을 간단히 알려줍니다 . 텍스트의 단어 수와 같이 쉽게 숫자로 변환 될 수있는 데이터에 적합합니다.(에프나는|기음)(에프나는|기음)

Naive Bayes 분류기와 함께 사용했던 분포는 Guassian pdf이므로 Guassian Naive Bayes 분류기로 부를 수 있습니다.

요약하면 Naive Bayes 분류기는 모델의 각 기능에 대한 조건부 독립성을 나타내는 일반적인 용어 인 반면, Multinomial Naive Bayes 분류기는 각 기능에 대해 다항 분포를 사용하는 Naive Bayes 분류기의 특정 인스턴스입니다.

참고 문헌 :

스튜어트 제이 러셀과 피터 노비 그. 인공 지능 : 현대적 접근법 (2 판). 피어슨 교육. p. 참조 "멍청한 베이"와 Naive 베이 모델의 일반적인 정의 및 독립 가정에 대한 참조


링크는 깨진
ssoler

@ jlund3, 좋은 설명 감사합니다. 분포 정보를 분류기에 어떻게 통합합니까? 나는 포 말라 p (c | f1, ..., fn) ∝p (c) p (f1 | c) ... p (fn | c)가 구 아시안 분포 대 복합 운송인지에 따라 어떻게 변하는가
David

간단한 설명에 감사하지만 NB 및 인공 지능 기술에 대한 자세한 내용은 위에서 언급 한 책 (Stuart J. Russell 및 Peter Norvig. 2003. 인공 지능 : 현대적 접근법 (2 판))을 추천합니다.
Mirani

다항 분포의 수는 독립적이지 않습니다. 여기 내 질문을 참조하십시오 : datascience.stackexchange.com/questions/32016/…
Hanan Shteingart

10

일반적으로 n- 차원 데이터 및 k 클래스에 대해 Naive Bayes를 훈련 각 , 에 대해 를 추정해야합니다 . 당신은 어떤 쌍에 대한 확률 분포를 가정 할 수있다 (그것은 이산에 대한 분포를 가정하지에 더 나은 비록 에 대한 지속적인 ). 한 변수에는 가우시안 분포를, 다른 변수에는 포아송을, 또 다른 변수에는 이산을 분포시킬 수 있습니다.(엑스나는|기음j)1나는1j케이(나는,j)(엑스나는|기음j1)(엑스나는|기음j2)

다항식 Naive Bayes는 모든 쌍에 대한 다항식 분포를 가정합니다. 문서의 단어 수와 같은 경우에는 합리적인 가정 인 것 같습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.