와타나베의 논의를 이해하려면 그가 "단일성"이라는 의미를 인식하는 것이 중요합니다. (엄격한) 특이점은 그의 이론에서 특이점 메트릭의 기하학적 개념과 일치합니다.
p.10 [Watanabe] : "통계 모델 는 식별 가능하고 양의 명확한 지표가있는 경우 규칙적이라고합니다. 통계 모델이 규칙적이지 않으면 엄격하게 단수라고합니다."p ( x ∣ w )
실제로, 특이점은 일반적으로 "기계 학습"작업의 낮은 순위 나 드문 경우와 같이 모델에 의해 정의 된 매니 폴드에서 변형 된 모델에 의해 유발 된 Fisher 정보 메트릭이 발생할 때 발생합니다.
경험적 KL 분기의 이론적 가치로의 수렴에 대해 와타나베가 말한 것은 다음과 같이 이해 될 수있다. 발산 개념의 한 가지 기원은 강력한 통계에서 비롯됩니다. 대비 함수 와 함께 MLE를 특수한 경우로 포함하는 M 추정기 는 일반적으로 약한 토폴로지를 사용하여 설명합니다. 공간 M ( X ) 에 대해 약한 토폴로지를 사용하여 수렴 동작을 논의하는 것이 합리적입니다.ρ ( θ , δ( X) ) = − 로그p ( X∣ θ )미디엄( X) (폴란드어 공간 X 에 정의 된 모든 가능한 측정 값의 매니 폴드엑스) 때문에 MLE의 견고성 동작을 연구하고 싶습니다. [Huber]의 고전 정리는 잘 분리 된 발산 함수 언급했습니다 . INF | θ − θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) − D ( θ 0 , θ 0 ) |D ( θ0, θ ) = Eθ0ρ ( θ , δ)
INF| θ− θ0| ≥ϵ( | D ( θ0, θ ) − D ( θ0, θ0) | ) > 0
저녁을 먹다θ∣∣∣1엔∑나는ρ ( θ , δ( X나는) ) − D ( θ0, θ ) ∣∣∣→0,n→∞
θn^:=argminθρ(θ,δ(Xn))
will converge to
θ0 in probability
Pθ0. This result requires far more precise conditions if we compared with Doob's result [Doob] in weak consistency of Bayesian estimator.
So here Bayesian estimators and MLE diverges. If we still use weak topology to discuss consistency of Bayesian estimators, it is meaningless because Bayesian estimators will always(with probability one) be consistent by Doob. Therefore a more appropriate topology is Schwarz distribution topology which allows weak derivatives and von Mises' theory came into play. Barron had a very nice technical report on this topic how we could use Schwartz theorem to obtain consistency.
In another perspective, Bayesian estimators are distributions and their topology should be something different. Then what kind of role the divergence D plays in that kind of topology? The answer is that it defines KL support of priors which allows Bayesian estimator to be strongly consistent.
The "singular learning result" is affected because, as we see, Doob's consistency theorem ensures that Bayesian estimators to be weakly consistent(even in singular model) in weak topology while MLE should meet certain requirements in the same topology.
Just one word, [Watanabe] is not for beginners. It has some deep implications on real analytic sets which requires more mathematical maturity than most statisticians have, so it is probably not a good idea to read it without appropriate guidance.
■ References
[Watanabe] Watanabe, Sumio. Algebraic geometry and statistical learning theory. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "The behavior of maximum likelihood estimates under nonstandard conditions." Proceedings of the fifth Berkeley symposium on mathematical statistics and probability. Vol. 1. No. 1. 1967.
[Doob] Doob, Joseph L. "Application of the theory of martingales." Le calcul des probabilites et ses applications (1949): 23-27.