다른 토폴로지에서 다른 추정기의 수렴 동작에 대해 논의해야하는 이유는 무엇입니까?


14

다른 기능 공간에서 추정의 수렴에 대해 이야기하는 대수 기하학 및 통계 학습 이론 책의 첫 번째 장 에서 베이지안 추정은 슈바르츠 분포 토폴로지에 해당하고 최대 가능성 추정은 정상 토폴로지에 해당한다고 언급합니다. (7 페이지) :

예를 들어, sup-norm, -norm, Hilbert space 의 약한 토폴로지 2, Schwartz 배포 토폴로지 등이 있습니다. 수렴 케이()케이() 보유 여부에 관계없이 기능 공간의 토폴로지에 크게 의존합니다 . 베이 즈 추정은 슈바르츠 분포 토폴로지에 해당하는 반면, 최대 우도 또는 사후 분석법은 정상에 해당합니다. 이 차이는 단일 모델의 학습 결과에 큰 영향을 미칩니다.

여기서 K ( w ) 는 각각 실제 모델과 파라 메트릭 모델 (모수 w 포함 ) 사이의 경험적 KL- 분산 (관측치에 대한 요약)과 실제 KL- 분산 (데이터 분포에 대한 적분 )입니다.Kn(w)K(w)w

누구든지 설명을 해 주거나 책에서 어느 부분이 정당화되는지 알려줄 수 있습니까? 감사합니다.

업데이트 : 저작권 내용이 제거됩니다.


무엇 K n은 ? KKn
Taylor

@ 테일러 필요한 정보를 추가했습니다.
ziyuang

나중에 질문에 대답하겠습니다. 와타나베의 책을 비교적 잘 알고 있습니다. 그러나 나는 당신이 책을 인용하는 방식을 강하게 싫어합니다. 여기에 섹션을 직접 넣으면 저작권 문제가 발생할 수 있습니다. 페이지 번호를 사용하고 적절한 턱받이와 인용을 입력하는 것이 더 좋습니다.
Henry.L

@ Henry.L 감사합니다. 저작권 내용이 제거되었습니다.
ziyuang

@ 헨리 (Henry) : 저작권이있는 저작물의 일부를 재생하는 데 신중하고 양심적 인 가치가 있다고 생각하지만이 경우 지위 안은 전혀 걱정할 것이 없다고 생각합니다. 학문적 비평을위한 OP의 작은 발췌문 사용은 (미국) "공정한 사용"교리에 크게 해당됩니다. 실제로, 정확한 재생산은 콘텐츠의 변형에 의해 야기 될 수있는 모호성을 제거하기 때문에 때때로 특히 가치가있을 수있다. IANAL.
추기경

답변:


2

와타나베의 논의를 이해하려면 그가 "단일성"이라는 의미를 인식하는 것이 중요합니다. (엄격한) 특이점은 그의 이론에서 특이점 메트릭의 기하학적 개념과 일치합니다.

p.10 [Watanabe] : "통계 모델 는 식별 가능하고 양의 명확한 지표가있는 경우 규칙적이라고합니다. 통계 모델이 규칙적이지 않으면 엄격하게 단수라고합니다."(엑스)

실제로, 특이점은 일반적으로 "기계 학습"작업의 낮은 순위 나 드문 경우와 같이 모델에 의해 정의 된 매니 폴드에서 변형 된 모델에 의해 유발 된 Fisher 정보 메트릭이 발생할 때 발생합니다.

경험적 KL 분기의 이론적 가치로의 수렴에 대해 와타나베가 말한 것은 다음과 같이 이해 될 수있다. 발산 개념의 한 가지 기원은 강력한 통계에서 비롯됩니다. 대비 함수 와 함께 MLE를 특수한 경우로 포함하는 M 추정기 는 일반적으로 약한 토폴로지를 사용하여 설명합니다. 공간 M ( X ) 에 대해 약한 토폴로지를 사용하여 수렴 동작을 논의하는 것이 합리적입니다.ρ(θ,δ(엑스))=로그(엑스θ)미디엄(엑스) (폴란드어 공간 X 에 정의 된 모든 가능한 측정 값의 매니 폴드엑스) 때문에 MLE의 견고성 동작을 연구하고 싶습니다. [Huber]의 고전 정리는 잘 분리 된 발산 함수 언급했습니다 . INF | θ θ 0 | ϵ ( | D ( θ 0 , θ ) D ( θ 0 , θ 0 ) |(θ0,θ)=이자형θ0ρ(θ,δ)

INF|θθ0|ϵ(|(θ0,θ)(θ0,θ0)|)>0
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
θn^:=argminθρ(θ,δ(Xn))
will converge to θ0 in probability Pθ0. This result requires far more precise conditions if we compared with Doob's result [Doob] in weak consistency of Bayesian estimator.

So here Bayesian estimators and MLE diverges. If we still use weak topology to discuss consistency of Bayesian estimators, it is meaningless because Bayesian estimators will always(with probability one) be consistent by Doob. Therefore a more appropriate topology is Schwarz distribution topology which allows weak derivatives and von Mises' theory came into play. Barron had a very nice technical report on this topic how we could use Schwartz theorem to obtain consistency.

In another perspective, Bayesian estimators are distributions and their topology should be something different. Then what kind of role the divergence D plays in that kind of topology? The answer is that it defines KL support of priors which allows Bayesian estimator to be strongly consistent.

The "singular learning result" is affected because, as we see, Doob's consistency theorem ensures that Bayesian estimators to be weakly consistent(even in singular model) in weak topology while MLE should meet certain requirements in the same topology.

Just one word, [Watanabe] is not for beginners. It has some deep implications on real analytic sets which requires more mathematical maturity than most statisticians have, so it is probably not a good idea to read it without appropriate guidance.

References

[Watanabe] Watanabe, Sumio. Algebraic geometry and statistical learning theory. Vol. 25. Cambridge University Press, 2009.

[Huber] Huber, Peter J. "The behavior of maximum likelihood estimates under nonstandard conditions." Proceedings of the fifth Berkeley symposium on mathematical statistics and probability. Vol. 1. No. 1. 1967.

[Doob] Doob, Joseph L. "Application of the theory of martingales." Le calcul des probabilites et ses applications (1949): 23-27.


I am trying to give some intuition for parts of the answer so correct me if I am wrong. Bayes estimator is consistent if we see it as a point estimator (MAP, rather than a probabilistic distribution). It requires less conditions for its consistency than MLE intuitively because of the prior acting as regularization. On the other hand, Schwartz distribution topology is more suitable when we see Bayes estimator as a distribution, it also help build a closer relation between the consistency of MLE and Bayes estimator, so that the case where one diverges and the other converges will not happen.
ziyuang

죄송하지만 귀하의 설명이 옳지 않다고 생각합니다. 이전은 정규화의 역할을하지만 수렴 속도를 반드시 제어 할 필요는 없습니다. 실제로 평평한 사전은 실제로 수렴 속도를 늦 춥니 다. 그것들은 단순히 두 가지 다른 토폴로지입니다.
Henry.L 2012
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.