순진 베이 분류 기가 0-1 손실에 최적 인 이유는 무엇입니까?


13

Naive Bayes 분류기는 클래스 멤버쉽 의 사후 를 최대화하여 항목 를 클래스 할당하는 분류기이며 항목 의 기능이 독립적이라고 가정합니다.xCP(C|x)

0-1 손실은 모든 잘못된 분류에 "1"의 손실과 "0"의 손실을 올바른 분류에 할당하는 손실입니다.

나는 종종 (1) "Naive Bayes"분류 기가 0-1 손실에 최적이라는 것을 읽습니다. 왜 이것이 사실입니까?

(1) 하나의 예시적인 출처 : 베이 분류기와 베이 오류


2
" 나는 종종"Naive Bayes "분류 기가 0-1 손실에 최적 이라는 것을 알고 있습니까?" 예를 들어, 과거에 이런 유형의 진술을 읽었을 수도 있습니다
Jon

1
편집은 exemplatory 소스 추가

답변:


16

실제로 이것은 매우 간단합니다. Bayes 분류 기준은 발생 확률 이 가장 높은 클래스를 선택합니다 ( 최대 사후 추정치 라고 함 ). 0-1 손실 기능 처벌의 오 분류, 그것은 올바른 분류를 가장 많이 가지고있는 솔루션에 대한 작은 손실을 할당 즉. 두 경우 모두 추정 모드 에 대해 이야기하고 있습니다 . 모드는 데이터 세트에서 가장 일반적인 값 또는 가장 가능성있는 값 이므로, 사후 확률을 최대화하고 0-1 손실을 최소화하면 모드를 추정 할 수 있습니다.

공식적인 증거가 필요한 경우 Angela J. Yu의 베이지안 결정 이론 소개서에 나와 있습니다 .

0-1 이진 손실 함수의 형식은 다음과 같습니다.

lx(s^,s)=1δs^s={1ifs^s0otherwise

여기서 는 크로네 커 델타 함수입니다. (...) 예상 손실은 다음과 같습니다.δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

이것은 일반적으로 사후 추정을 극대화하기 위해 적용됩니다. 따라서 사후 분포 를 알고 있다면 0-1 손실을 가정하면 가장 최적의 분류 규칙은 사후 분포의 모드를 취하는 것입니다. 우리는 이것을 최적의 베이 분류기라고 합니다. 실제로 우리는 일반적으로 사후 분포를 모르지만 오히려 추정합니다. Naive Bayes 분류기 는 경험적 분포를보고 예측 변수의 독립성을 가정하여 최적의 분류기를 근사합니다. 따라서 순진한 Bayes 분류기는 그 자체로는 최적이 아니지만 최적의 솔루션에 가깝습니다. 귀하의 질문에 당신은 그 두 가지를 혼동하는 것 같습니다.


나는 내가 이해한다고 생각한다. 따라서 공식적인 증거는 Loss (action_1) = 1-P (action_2 | data) <--- 라인을 따르는 무언가 일 것이다. 우리는 이것을 최소화하고 싶다. 이것을 최소화하는 것은 다시 올바른 클래스의 선행을 최대화하는 것과 같습니다 (즉, P (action_2 | data)를 최대화합니다. 그러나 나를 혼동하는 것은 모든 분류 자가이 점에 대해 최적이 아닌 이유입니다-이것이 가장 기본적인 요구 사항 인 것처럼 보입니다. 데이터 샘플을 클래스에 할당하기 위해 항상 더 높은 클래스를 가진 클래스에 데이터 샘플을 할당하기로 선택한 경우,이 최적 성을 자동으로

@TestGuest 공식 증거에 대한 편집 내용을 확인하십시오.

그것은 내가 그런 증거를 위해 본 가장 복잡한 형식입니다.)) 감사합니다.하지만 다른 사람들에게도 도움이되기를 바랍니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.