왜 베이 즈 정리에서 분모를 분해합니까?

23

(저는 통계 전문가입니다. 저는 수학자이자 프로그래머이며 순진한 베이지안 스팸 필터와 같은 것을 만들려고합니다.)

많은 곳에서 사람들이 베이 즈 정리의 방정식에서 분모를 분해하는 경향이 있음을 알았습니다. 그래서 이것 대신에 :

$\frac{P(A|B)\cdot P(B)}{P(A)}$

우리는 이것을 제시합니다 :

$\frac{P(A|B)\cdot P(B)}{P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)}$

이 컨벤션은 이 위키 백과 기사 와 Tim Peters의 통찰력있는 게시물에서 사용 됩니다.

나는 이것으로 당황합니다. 왜 분모가 이렇게 분해 되었습니까? 그것이 어떻게 도움이 되나요? 스팸 필터의 경우 계산에있어 너무 복잡한 점은 무엇입니까 ? $P(A)$ The probability that the word "cheese" appears in an email, regardless of whether it's spam or not

bayesian

— 램 라쿰
소스

답변이 도메인별로 (예 : 스팸 필터에만 해당) 의심됩니다. 구성 요소 P (A | B) 등을 계산할 수 있으면 언급 한대로 더 간단한 P (A)를 계산할 수 있어야합니다. 또는 아마도 답은 교육학과 관련이 있기 때문에 독자는 P (A)와 P (A | B), P (B) 등의 관점에서 P (A)와 그 분해 사이의 관계를 이해할 수 있습니다.

1

나는 강력한 대답을 얻지 못했지만 명시 적 분모에 주어진 것을 꽂을 수있는 테스트에서 바보 같은 실수를 저질렀다고 말할 수 있지만 P (A)를 알고 있다고 잘못 생각했습니다.

— Wayne

16

귀하의 질문에 대한 짧은 대답은 "대부분 우리는 P (치즈)가 무엇인지 모르고 종종 (상대적으로) 계산하기가 어렵습니다."입니다.

베이 즈의 규칙 / 정리가 일반적으로 당신이 쓴 방식으로 언급되는 이유에 대한 더 긴 대답은 베이 즈 문제에서 우리가 무릎에 앉아-이전 분포 (위의 P (B))와 가능성 (P (A | B), 위의 P (A | notB))를 구한 후 (P (B | A))를 구하는 것은 비교적 간단한 곱셈 문제입니다. P (A)를 요약 된 형태로 다시 표현하는 데 어려움을 겪는 것은 다른 곳에서 할 수있는 노력입니다.

전자 메일의 맥락에서 그렇게 복잡해 보이지는 않을 것입니다. 올바르게 언급했듯이 P (치즈) 일뿐입니다. 문제는 배틀 필드 베이지안 문제와 관련하여 분모가보기 흉한 필수 요소이며 폐쇄 형 솔루션이 있거나 없을 수 있다는 점입니다. 사실, 우리는 때로는 적분 을 근사 하고 숫자를 휘두르는 것이 정교한 몬테 카를로 방법을 필요로 할 때 후면에 큰 고통이 될 수 있습니다.

그러나 요컨대, P (치즈)가 무엇인지 신경 쓰지 않아도됩니다. 우리는 이메일이 스팸 인지 아닌지에 대한 우리의 믿음을 연마하려고 노력하고 있으며 데이터의 한계 분포에 대해서는 신경 쓰지 않습니다 (위의 P (A)). 어쨌든 매개 변수에 의존하지 않는 정규화 상수 일뿐입니다. 합산은 매개 변수에 대한 모든 정보를 제거합니다. 상수는 계산하기가 어려우며 전자 메일의 스팸 여부에 대한 우리의 신념에 전혀 영향을 미치지 않습니다. 때때로 우리는 그것을 계산할 의무가 있으며,이 경우 가장 빠른 방법은 우리가 이미 가지고있는 정보 인 이전과 가능성을 사용하는 것입니다.

누군가가 어떤 문제에 사용될 '모호한 솔루션이있을 수도 있고 보이지 않을 수도있는보기 흉한 통합'을 제공하고 예를 제시 할 수 있습니까?

— PaulG

8

총 확률 규칙을 사용하는 한 가지 이유는 우리가 종종 그 표현에서 성분 확률을 다루기 때문에 단순히 값을 꽂아 한계 확률을 찾는 것이 간단하기 때문입니다. 이에 대한 그림은 Wikipedia에서 다음 예를 참조하십시오.

베이 즈 정리> 예 1 : 약물 테스트

또 다른 이유는 그 표현을 조작함으로써 동등한 형태의 베이 즈 규칙을 인식하는 것입니다. 예를 들면 다음과 같습니다.

$P(B|A) = \frac{P(A|B) P(B)}{P(A|B)P(B) + P(A|\lnot B)P(\lnot B)}$

분자별로 RHS를 나누십시오.

$P(B|A) = \frac{1} {1 + \frac{P(A|\lnot B)}{P(A|B)} \frac{P(\lnot B)}{P(B)}}$

Bayes 'Rule과 동등한 형식으로, 원래 표현에서 이것을 빼서 더 편리하게 만듭니다.

$\frac{P(\lnot B|A)}{P(B|A)} = \frac{P(A|\lnot B)} {P(A|B)} \frac {P(\lnot B)} {P(B)}$

이것은 승률로 표현 된 베이 즈의 규칙입니다. 즉, B에 대한 사후 배당률 = B에 대한 배당률 대 B에 대한 이전 배당률의 곱 입니다. 모형 가능성의 비율. 기본 데이터 생성 메커니즘에 대해 확신이없는 경우 데이터를 관찰하고 신념을 업데이트합니다.

이것이 유용하다고 확신하지는 않지만, 당황스럽지 않기를 바랍니다. 시나리오에 가장 적합한 표현으로 작업해야합니다. 다른 사람이 더 나은 이유를 가지고 파이프에 넣을 수 있습니다.

— ars
소스

한 단계 더 나아가 로그를 가져올 수 있습니다. 그러면 로그-포 어스 비율 = 로그-사전 비율 + 로그-우도 비율

— 확률 론적

6

$P (A)$

P (A) = P (A | B) \cdot P (B) + P (A | \neg B) \cdot P (\neg B)

$P(A) = P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)$

— 선 쿨수
소스