Naive Bayes 분류기 계산에서 제로 팩터를 처리하는 방법은 무엇입니까?


14

훈련 데이터 세트가 있고 Naive Bayes Classifier를 훈련시키고 확률 값이 0 인 속성 값을 갖는 경우. 나중에 새 데이터에 대한 분류를 예측하려면 어떻게해야합니까? 문제는 계산에 0이 있으면 다른 솔루션을 찾을 수있는 다른 값의 수에 관계없이 전체 제품이 0이된다는 것입니다.

예:

P(x|spam=yes)=P(TimeZone=US|spam=yes)P(GeoLocation=EU|spam=yes) ... =0.004

P(x|spam=no)=P(TimeZone=US|spam=no)P(GeoLocation=EU|spam=no) ... =0

0


불연속 속성 값이 발생하면 정의에 따라 확률이 0 일 수 없습니다.
Paul

왜 우리는 1 in 0 주파수 문제를 추가합니까?이 뒤에 논리는 무엇입니까?
Aftab Hussaiin

답변:


13

베이지안 설정에서이 '제로 빈도 문제'를 극복하는 방법은 속성 값이 모든 클래스 값과 함께 발생하지 않을 때 모든 속성 값-클래스 조합의 수에 1을 추가하는 것입니다. 예를 들어 훈련 데이터가 다음과 같다고 가정 해보십시오.

스팸=와이이자형에스스팸=영형타임 존=에스105타임 존=이자형00

(타임 존=에스|스팸=와이이자형에스)=1010=1

(타임 존=이자형|스팸=와이이자형에스)=010=0

그런 다음 확률을 계산할 때이 테이블의 모든 값에 1을 추가해야합니다.

스팸=와이이자형에스스팸=영형타임 존=에스116타임 존=이자형11

(타임 존=에스|스팸=와이이자형에스)=1112

(타임 존=이자형|스팸=와이이자형에스)=112


4
과연. 때때로 하나 이외의 값을 추가 할 수도 있습니다. 자세한 내용은 en.wikipedia.org/wiki/Additive_smoothing
DaL
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.