시안이 말했듯이, 그 질문은 헛된 것이지만 그럼에도 불구하고 많은 사람들이 일부 문헌과 인터넷에 나오는 진술로 인해 베이지안 관점에서 최대 가능성 추정치를 고려하게되었다고 생각합니다. " 최대 가능성 추정은 사전 분포가 균일 할 때 베이지안 최대 사후 추정치의 특별한 경우이다 .
베이지안 관점에서 최대 가능성 추정기와 그 불변 속성 이 의미가 있을 수 있지만, 베이지안 이론에서 추정기의 역할과 의미는 잦은 이론과는 매우 다릅니다. 그리고이 특정 추정량은 일반적으로 베이지안 관점에서 그리 합리적이지 않습니다. 이유는 다음과 같습니다. 간단히하기 위해 1 차원 매개 변수와 일대일 변환을 고려하겠습니다.
먼저 두 가지 언급 :
매개 변수를 일반 매니 폴드에있는 수량으로 간주하면 다른 좌표계 또는 측정 단위를 선택할 수 있습니다. 이 관점에서 다시 매개 변수화는 단지 좌표의 변화 일뿐입니다. 예를 들어, 는 (K), (° C), (° F) 또는 (a 대수 스케일). 우리의 추론과 결정은 좌표 변화와 관련하여 변하지 않아야합니다. 물론 일부 좌표계는 다른 좌표계보다 자연 스러울 수 있습니다.T=273.16t=0.01θ=32.01η=5.61
연속 수량에 대한 확률은 항상 그러한 값의 간격 (더 정확하게 말하면 세트)을 나타내며 특정 값은 아닙니다. 단일 사례의 경우, 예를 들어 하나의 값만 포함하는 세트를 고려할 수 있습니다. Riemann-integral 스타일 의 확률 밀도 표기법 는
(a) 매개 변수 매니 폴드에서
좌표계 를 선택 했음을 (b) 이러한 좌표 시스템은, 동일한 폭의 간격을 말하는있게 해준다
작은 간격 값 놓 (c) 확률 약 , 여기서 점이다 간격 내에서.p(x)dx
x
Δxp(x)Δxx
(또는 기본 Lebesgue 측정 값 와 동일한 측정 간격을 말할 수 있지만 본질은 동일합니다.)dx
따라서, 같은 문장 " "의 가능성이 있다고하지 의미 하는가 위한보다 큰 하지만 가능성이 작은 간격에 놓여 주위 이 구간에 있다고 확률보다 큰 동일한 폭의 약 . 이러한 진술은 좌표에 의존합니다.p(x1)>p(x2)x1x2xx1x2
(자주 주의적) 최대 우도 관점을 살펴 보자이 관점
에서 모수 값 의 확률에 대해 말하는 것은 단순히 의미가 없습니다. 마침표. 실제 매개 변수 값이 무엇인지 알고 싶습니다 . 데이터 가장 높은 확률을 제공하는 값 은 직관적으로 너무 멀지 않아야합니다.
이것이 최대 우도 추정값입니다.xx~Dx~:=argmaxxp(D∣x).(*)
이 추정기는 모수 다기관 에서 점 을 선택 하므로 좌표계에 의존하지 않습니다. 달리 명시 : 매개 변수 매니 폴드의 각 점은 숫자 : 데이터 의 확률 ; 관련 번호가 가장 높은 지점을 선택합니다. 이 선택에는 좌표계 또는 기본 측정 값이 필요하지 않습니다. 이러한 이유로이 추정값은 모수화 불변 값이며,이 특성은 원하는 확률이 아니라는 것을 알려줍니다. 더 복잡한 매개 변수 변환을 고려할 때 이러한 불변은 유지되며 시안이 언급 한 프로파일 가능성은이 관점에서 완벽하게 이해됩니다.D
의 뷰의 베이지안 지점을 보자
우리가 그것에 대해 불확실한 데이터 및 기타 증거에 대한 조건이 있다면 항상 연속 매개 변수의 확률로 이야기하는 의미가 있습니다 이러한 관점에서 . 이것을
처음에 언급했듯이이 확률은 단일 지점이 아니라 매개 변수 매니 폴드의 간격을 나타냅니다.Dp(x∣D)dx∝p(D∣x)p(x)dx.(**)
모수에 대해 완전 확률 분포 를 지정하여 불확실성을보고하는 것이 이상적 입니다. 따라서 추정 자의 개념은 베이지안 관점에서 부차적입니다.p(x∣D)dx
이 개념 은 실제 목적을 알 수없는 경우에도 특정 목적 또는 이유로 매개 변수 매니 폴드에서 하나의 점을 선택 해야 할 때 나타납니다 . 이 선택은 의사 결정 이론의 영역 [1]이며, 선택된 값은 베이지안 이론에서 "추정자"의 적절한 정의입니다. 의사 결정 이론에 따르면 먼저 점이 (대안 적 으로 일 때 매개 변수 매니 폴드 에서 점 을 선택하여 얻는 양을 알려주 는 유틸리티 함수 를 소개해야합니다 우리는 손실 함수를 비판적으로 말할 수 있습니다). 이 함수는 및 와 같이 각 좌표계에서 다른 표현식을 갖습니다(P0,P)↦G(P0;P)P0P(x0,x)↦Gx(x0;x)(y0,y)↦Gy(y0;y); 좌표 변환이 이면 두 표현식은 [2].y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]
예를 들어 2 차 유틸리티 함수를 말할 때 특정 좌표계, 일반적으로 매개 변수에 대한 자연스러운 좌표계를 암시 적으로 선택했습니다. 다른 좌표계에서 유틸리티 기능에 대한 표현은 일반적으로 것 없는 차,하지만 여전히 매개 변수 매니 폴드에서 동일한 유틸리티 함수입니다.
유틸리티 함수 와 관련된 추정기 는 데이터 주어지면 기대되는 유틸리티를 최대화하는 지점입니다 . 좌표계 에서 좌표는
이 정의는 좌표 변경과 무관합니다. 새 좌표 에서 추정기의 좌표는 . 이것은 와 적분 의 좌표 독립성에서 비롯 됩니다.P^GDxx^:=argmaxx0∫Gx(x0;x)p(x∣D)dx.(***)
y=f(x)y^=f(x^)G
이러한 종류의 불일치는 베이 시안 추정기의 기본 속성입니다.
이제 우리는 다음과 같이 요청할 수 있습니다 : 추정기를 최대 가능성과 같은 유틸리티 함수가 있습니까? 최대 우도 추정치는 변하지 않기 때문에 그러한 함수가 존재할 수 있습니다. 이 관점에서, 최대 가능성은 변하지 않는 경우 베이지안 관점에서 무의미합니다 !
특정 좌표계 에서 Dirac 델타 인 와 같은 유틸리티 함수 는 작업을 수행하는 것 같습니다 [3]. 수학 수율 과의 종래 경우 균일 좌표에 우리 최대 가능성 추정값 . 다르게는 우리가 점점 작아 지원 유틸리티 함수의 시퀀스를 고려할 수있는, 예 경우 및 에 대해, 다른 곳에서 [4].xGx(x0;x)=δ(x0−x)(***)x^=argmaxxp(x∣D)(**)x(*)Gx(x0;x)=1|x0−x|<ϵGx(x0;x)=0ϵ→0
그렇습니다. 수학적으로 관대하고 일반화 된 함수를 받아들이면 최대 우도 추정값과 그 편차는 베이지안 관점에서 의미가 있습니다. 그러나 베이지안 관점에서 추정기의 의미, 역할 및 사용은 빈번한 관점과는 완전히 다릅니다.
또한 위에서 정의한 유틸리티 함수가 수학적으로 의미가 있는지에 관한 문헌에 예약이있는 것처럼 보인다 [5]. 어쨌든 그러한 유틸리티 함수의 유용성은 다소 제한적입니다. Jaynes [3]이 지적했듯이, "우리는 정확히 옳을 가능성에 대해서만 관심을 가지고 있습니다. 우리가 얼마나 틀린지 "
이제 "최대 우도는 균일 한 이전의 최대 우세의 특별한 경우"라는 진술을 고려하십시오. 좌표 의 일반적인 변경에서 어떤 일이 발생하는지 주목하는 것이 중요합니다 .
1. 위의 유틸리티 함수는 다른 표현식 ;
2. 좌표 의 사전 밀도 는 Jacobian 결정으로 인해 균일하지 않다 .
3. Dirac 델타가 추가 곱셈 인자를 획득했기 때문에 추정값 은 좌표 에서 사후 밀도의 최대 값이 아닙니다 .y=f(x)
Gy(y0;y)=δ[f−1(y0)−f−1(y)]≡δ(y0−y)|f′[f−1(y0)]|
y
y
4. 추정값은 여전히 새로운 좌표 에서 최대한의 확률로 제공됩니다 .
이러한 변경 사항이 결합되어 추정 점이 매개 변수 매니 폴드에서 여전히 동일합니다.y
따라서 위의 진술은 암묵적으로 특수 좌표계를 가정합니다. 잠정적이고보다 명백한 진술은 다음과 같습니다. "최대 우도 추정량은 일부 좌표계 에서 델타 유틸리티 기능과 균일 한 사전 을 갖는 베이지안 추정기와 수치 적으로 같습니다 ".
최종 의견
위의 논의는 비공식적이지만 측정 이론과 Stieltjes 통합을 사용하여 정확하게 만들 수 있습니다.
베이지안 문헌에서 우리는 좀 더 비공식적 인 추정량 개념을 찾을 수있다. 확률 분포를 "어떻게 요약"하는지, 특히 전체 밀도를 지정하는 것이 불편하거나 불가능한 경우에는 ; 예를 들어 Murphy [6] 또는 MacKay [7]를 참조하십시오. 이 개념은 일반적으로 의사 결정 이론과 분리되어 있기 때문에 좌표에 의존하거나 특정 좌표계를 암묵적으로 가정 할 수 있습니다. 그러나 추정의 결정 이론적 정의에서 변하지 않는 것은 추정자가 될 수 없습니다.p(x∣D)dx
[1] 예를 들어, H. Raiffa, R. Schlaifer : Applied Statistical Decision Theory (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick : 분석, 매니 폴드 및 물리학. 1 부 : 기초 (Elsevier 1996) 또는 미분 기하학에 관한 다른 좋은 책.
ET Jaynes : 확률 이론 : 과학의 논리 (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith : 베이지안 이론 (Wiley 2000), §5.1.5.
[5] IH Jermyn : 매니 폴드에 대한 불변 베이지안 추정 https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride : Bayes 추정기의 한계로 최대 추정량 추정기 https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy : 기계 학습 : 확률 론적 관점 (MIT Press 2012), 특히 chap. 5.
[7] DJC MacKay : 정보 이론, 추론 및 학습 알고리즘 (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .