ML 추정기의 불변 속성이 베이지안 관점에서 무의미합니까?


9

Casella와 Berger 는 ML 추정기의 불변성을 다음과 같이 말합니다.

여기에 이미지 설명을 입력하십시오

그러나 그들은 완전히 임시적이고 무의미한 방식 으로 의 "가능성"을 정의하는 것 같습니다 .η

여기에 이미지 설명을 입력하십시오

간단한 사례 wheter 에 확률 이론의 기본 규칙을 적용하면 대신 다음과 같은 결과가 나타납니다. 이제 베이 즈 정리를 적용한 다음 와 는 상호 배타적이므로 합산 규칙을 ​​적용 할 수 있습니다. η=τ(θ)=θ2

L(η|x)=p(x|θ2=η)=p(x|θ=ηθ=η)=:p(x|AB)
AB
p(x|AB)=p(x)p(AB|x)p(AB)=p(x|AB)=p(x)p(A|x)+p(B|x)p(A)+p(B)

이제 베이 즈 정리를 분자의 항에 다시 적용하십시오.

p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)

우리는이 WRT 극대화하려면 최대 우도 추정 얻기 위해 , 우리는 극대화 할 수있다 : ηη

pθ(η)p(x|θ=η)+pθ(η)p(x|θ=η)

베이 즈가 다시 공격을 받습니까? Casella & Berger가 잘못 되었습니까? 아니면 내가 틀렸어?



1
"단순한 경우에 확률 이론의 기본 규칙을 적용하면 "η=τ(θ)=θ2 뒤에 나오는 공식적인 부분 은 질문을 바꾸지 않습니다. 사무엘 베니트 (Samuel Benidt)의 탁월한 답변에서이 문제에 대해 자세히 다룹니다. 가능성 값 (결과적으로 최대 값)은 매핑으로 인해 변경되지 않습니다. 예. 매핑이 일대일이 아닌 경우 특별한주의가 필요합니다. 그러나 이는 변형을 적용 할 때 확률 분포로 인해 발생하는 변경과는 완전히 다른 문제입니다.
Sextus Empiricus의

4
귀하의 좌절, Programmer2134 (& @MartijnWeterings)를 이해합니다. 그러나 귀하의 의견에주의를 기울이십시오. 생산적인 대화는 우리의 훌륭한 정책을 준수 할 때만 가능합니다 . 생산적인 대화에 관심이 없다면 다른 곳에 질문을 게시해야합니다.
gung-모니 티 복원

3
@ 궁, 당신은 완전히 맞아요. 그리고 나는 그 음색에 반응하는 것을 후회합니다. 나는 지금부터 그 일을 그만 둘 것이다. 이렇게 돼서 미안하다. 대화에 관해서는, 나는 생산적인 것을 추구하는데 관심이 있지만, 내가 물었던 몇 가지 질문에 대한 사람들의 반응은 대부분 비생산적이라고 느꼈습니다. 그럼에도 불구하고 다음에는 다르게 반응 할 것입니다.
user56834

3
감사합니다. 사람들이 선의로 응답한다고 가정하는 것이 가장 좋습니다. 여기에 사람들이없는 경우도 있지만 (상대적으로 적은 수의 IMHO) 경우가 있습니다.
gung-모니 티 복원

답변:


15

시안이 말했듯이, 그 질문은 헛된 것이지만 그럼에도 불구하고 많은 사람들이 일부 문헌과 인터넷에 나오는 진술로 인해 베이지안 관점에서 최대 가능성 추정치를 고려하게되었다고 생각합니다. " 최대 가능성 추정은 사전 분포가 균일 할 때 베이지안 최대 사후 추정치의 특별한 경우이다 .

베이지안 관점에서 최대 가능성 추정기와 그 불변 속성 의미가 있을 수 있지만, 베이지안 이론에서 추정기의 역할과 의미는 잦은 이론과는 매우 다릅니다. 그리고이 특정 추정량은 일반적으로 베이지안 관점에서 그리 합리적이지 않습니다. 이유는 다음과 같습니다. 간단히하기 위해 1 차원 매개 변수와 일대일 변환을 고려하겠습니다.

먼저 두 가지 언급 :

  1. 매개 변수를 일반 매니 폴드에있는 수량으로 간주하면 다른 좌표계 또는 측정 단위를 선택할 수 있습니다. 이 관점에서 다시 매개 변수화는 단지 좌표의 변화 일뿐입니다. 예를 들어, 는 (K), (° C), (° F) 또는 (a 대수 스케일). 우리의 추론과 결정은 좌표 변화와 관련하여 변하지 않아야합니다. 물론 일부 좌표계는 다른 좌표계보다 자연 스러울 수 있습니다.T=273.16t=0.01θ=32.01η=5.61

  2. 연속 수량에 대한 확률은 항상 그러한 값의 간격 (더 정확하게 말하면 세트)을 나타내며 특정 값은 아닙니다. 단일 사례의 경우, 예를 들어 하나의 값만 포함하는 세트를 고려할 수 있습니다. Riemann-integral 스타일 의 확률 밀도 표기법 는 (a) 매개 변수 매니 폴드에서 좌표계 를 선택 했음을 (b) 이러한 좌표 시스템은, 동일한 폭의 간격을 말하는있게 해준다 작은 간격 값 놓 (c) 확률 약 , 여기서 점이다 간격 내에서.p(x)dx
    x

    Δxp(x)Δxx
    (또는 기본 Lebesgue 측정 값 와 동일한 측정 간격을 말할 수 있지만 본질은 동일합니다.)dx

    따라서, 같은 문장 " "의 가능성이 있다고하지 의미 하는가 위한보다 큰 하지만 가능성이 작은 간격에 놓여 주위 이 구간에 있다고 확률보다 큰 동일한 폭의 . 이러한 진술은 좌표에 의존합니다.p(x1)>p(x2)x1x2xx1x2

(자주 주의적) 최대 우도 관점을 살펴 보자이 관점
에서 모수 값 의 확률에 대해 말하는 것은 단순히 의미가 없습니다. 마침표. 실제 매개 변수 값이 무엇인지 알고 싶습니다 . 데이터 가장 높은 확률을 제공하는 값 은 직관적으로 너무 멀지 않아야합니다. 이것이 최대 우도 추정값입니다.xx~D

(*)x~:=argmaxxp(Dx).

이 추정기는 모수 다기관 에서 을 선택 하므로 좌표계에 의존하지 않습니다. 달리 명시 : 매개 변수 매니 폴드의 각 점은 숫자 : 데이터 의 확률 ; 관련 번호가 가장 높은 지점을 선택합니다. 이 선택에는 좌표계 또는 기본 측정 값이 필요하지 않습니다. 이러한 이유로이 추정값은 모수화 불변 값이며,이 특성은 원하는 확률이 아니라는 것을 알려줍니다. 더 복잡한 매개 변수 변환을 고려할 때 이러한 불변은 유지되며 시안이 언급 한 프로파일 가능성은이 관점에서 완벽하게 이해됩니다.D

의 뷰의 베이지안 지점을 보자
우리가 그것에 대해 불확실한 데이터 및 기타 증거에 대한 조건이 있다면 항상 연속 매개 변수의 확률로 이야기하는 의미가 있습니다 이러한 관점에서 . 이것을 처음에 언급했듯이이 확률은 단일 지점이 아니라 매개 변수 매니 폴드의 간격을 나타냅니다.D

(**)p(xD)dxp(Dx)p(x)dx.

모수에 대해 완전 확률 분포 를 지정하여 불확실성을보고하는 것이 이상적 입니다. 따라서 추정 자의 개념은 베이지안 관점에서 부차적입니다.p(xD)dx

이 개념 은 실제 목적을 알 수없는 경우에도 특정 목적 또는 이유로 매개 변수 매니 폴드에서 하나의 점을 선택 해야 할 때 나타납니다 . 이 선택은 의사 결정 이론의 영역 [1]이며, 선택된 값은 베이지안 이론에서 "추정자"의 적절한 정의입니다. 의사 결정 이론에 따르면 먼저 점이 (대안 적 으로 일 때 매개 변수 매니 폴드 에서 점 을 선택하여 얻는 양을 알려주 는 유틸리티 함수 를 소개해야합니다 우리는 손실 함수를 비판적으로 말할 수 있습니다). 이 함수는 및 와 같이 각 좌표계에서 다른 표현식을 갖습니다(P0,P)G(P0;P)P0P(x0,x)Gx(x0;x)(y0,y)Gy(y0;y); 좌표 변환이 이면 두 표현식은 [2].y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]

예를 들어 2 차 유틸리티 함수를 말할 때 특정 좌표계, 일반적으로 매개 변수에 대한 자연스러운 좌표계를 암시 적으로 선택했습니다. 다른 좌표계에서 유틸리티 기능에 대한 표현은 일반적으로 것 없는 차,하지만 여전히 매개 변수 매니 폴드에서 동일한 유틸리티 함수입니다.

유틸리티 함수 와 관련된 추정기 는 데이터 주어지면 기대되는 유틸리티를 최대화하는 지점입니다 . 좌표계 에서 좌표는 이 정의는 좌표 변경과 무관합니다. 새 좌표 에서 추정기의 좌표는 . 이것은 와 적분 의 좌표 독립성에서 비롯 됩니다.P^GDx

(***)x^:=argmaxx0Gx(x0;x)p(xD)dx.
y=f(x)y^=f(x^)G

이러한 종류의 불일치는 베이 시안 추정기의 기본 속성입니다.

이제 우리는 다음과 같이 요청할 수 있습니다 : 추정기를 최대 가능성과 같은 유틸리티 함수가 있습니까? 최대 우도 추정치는 변하지 않기 때문에 그러한 함수가 존재할 수 있습니다. 이 관점에서, 최대 가능성은 변하지 않는 경우 베이지안 관점에서 무의미합니다 !

특정 좌표계 에서 Dirac 델타 인 와 같은 유틸리티 함수 는 작업을 수행하는 것 같습니다 [3]. 수학 수율 과의 종래 경우 균일 좌표에 우리 최대 가능성 추정값 . 다르게는 우리가 점점 작아 지원 유틸리티 함수의 시퀀스를 고려할 수있는, 예 경우 및 에 대해, 다른 곳에서 [4].xGx(x0;x)=δ(x0x)(***)x^=argmaxxp(xD)(**)x(*)Gx(x0;x)=1|x0x|<ϵGx(x0;x)=0ϵ0

그렇습니다. 수학적으로 관대하고 일반화 된 함수를 받아들이면 최대 우도 추정값과 그 편차는 베이지안 관점에서 의미가 있습니다. 그러나 베이지안 관점에서 추정기의 의미, 역할 및 사용은 빈번한 관점과는 완전히 다릅니다.

또한 위에서 정의한 유틸리티 함수가 수학적으로 의미가 있는지에 관한 문헌에 예약이있는 것처럼 보인다 [5]. 어쨌든 그러한 유틸리티 함수의 유용성은 다소 제한적입니다. Jaynes [3]이 지적했듯이, "우리는 정확히 옳을 가능성에 대해서만 관심을 가지고 있습니다. 우리가 얼마나 틀린지 "

이제 "최대 우도는 균일 한 이전의 최대 우세의 특별한 경우"라는 진술을 고려하십시오. 좌표 의 일반적인 변경에서 어떤 일이 발생하는지 주목하는 것이 중요합니다 . 1. 위의 유틸리티 함수는 다른 표현식 ; 2. 좌표 의 사전 밀도 는 Jacobian 결정으로 인해 균일하지 않다 . 3. Dirac 델타가 추가 곱셈 인자를 획득했기 때문에 추정값 좌표 에서 사후 밀도의 최대 값이 아닙니다 .y=f(x)
Gy(y0;y)=δ[f1(y0)f1(y)]δ(y0y)|f[f1(y0)]|
y
y
4. 추정값은 여전히 ​​새로운 좌표 에서 최대한의 확률로 제공됩니다 . 이러한 변경 사항이 결합되어 추정 점이 매개 변수 매니 폴드에서 여전히 동일합니다.y

따라서 위의 진술은 암묵적으로 특수 좌표계를 가정합니다. 잠정적이고보다 명백한 진술은 다음과 같습니다. "최대 우도 추정량은 일부 좌표계 에서 델타 유틸리티 기능과 균일 한 사전 을 갖는 베이지안 추정기와 수치 적으로 같습니다 ".

최종 의견
위의 논의는 비공식적이지만 측정 이론과 Stieltjes 통합을 사용하여 정확하게 만들 수 있습니다.

베이지안 문헌에서 우리는 좀 더 비공식적 인 추정량 개념을 찾을 수있다. 확률 분포를 "어떻게 요약"하는지, 특히 전체 밀도를 지정하는 것이 불편하거나 불가능한 경우에는 ; 예를 들어 Murphy [6] 또는 MacKay [7]를 참조하십시오. 이 개념은 일반적으로 의사 결정 이론과 분리되어 있기 때문에 좌표에 의존하거나 특정 좌표계를 암묵적으로 가정 할 수 있습니다. 그러나 추정의 결정 이론적 정의에서 변하지 않는 것은 추정자가 될 수 없습니다.p(xD)dx

[1] 예를 들어, H. Raiffa, R. Schlaifer : Applied Statistical Decision Theory (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick : 분석, 매니 폴드 및 물리학. 1 부 : 기초 (Elsevier 1996) 또는 미분 기하학에 관한 다른 좋은 책.
ET Jaynes : 확률 이론 : 과학의 논리 (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith : 베이지안 이론 (Wiley 2000), §5.1.5.
[5] IH Jermyn : 매니 폴드에 대한 불변 베이지안 추정 https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride : Bayes 추정기의 한계로 최대 추정량 추정기 https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy : 기계 학습 : 확률 론적 관점 (MIT Press 2012), 특히 chap. 5.
[7] DJC MacKay : 정보 이론, 추론 및 학습 알고리즘 (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .


1
상기 의미에서, 예를 들어 두 밀도 사이의 쿨백-라이 블러 발산과 같은 기능적 손실 함수를 생성함으로써 불변 베이 즈 추정기를 정의하는 방법이 존재한다. 나는 1996 년 논문에서 이러한 손실을 내재적 손실 이라고 불렀다 .
시안

8

비 베이지안 관점에서는, 같은 양의 어떤 정의가 없다 때문에 고정 파라미터 및 컨디셔닝 표기법 다음이 수행 이해가되지 않습니다. 제안하는 대안은 이전 배포판에 의존하며, 이는 Casella 및 Berger 가 제안한 것과 같은 접근 방식 을 피하려고하는 것입니다. 더 많은 항목에 대한 키워드 프로필 가능성 을 확인할 수 있습니다 . (그리고 아무 의미가 없다 또는 이.)

p(x|θ=ηθ=η)
θrightwrong

이것이 내가 말하는 것과 어떻게 모순됩니까? 나의 요점은 그것이 베이지안 관점에서 무의미하다는 것이다 . Casella와 Berger의 솔루션에서 내가 가진 문제는 기본적으로 그들이 원하는 결론에 도달하는 방식으로 완전히 새로운 가능성에 대한 정의를 제시한다는 것입니다. 만약 내가 위에서 준 것 같은 가능성에 대한 일관된 정의를 만들면 결론은 달라질 것입니다. 물론 Casella와 Berger는 사전에 참여하지 않기를 원할 수 있지만, 그렇게 할 수있는 유일한 방법은 가능성에 대한 정의를 임시로 변경하는 것입니다.
user56834

3
베이지안 관점을 유지하려는 경우, 베이 시안 이외의 대부분의 결과가 베이지안 원칙에 맞지 않거나 "일관 적"이지 않기 때문에 문제는 논쟁의 여지가 있습니다.
시안
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.