1) 왜 편향 도입으로 인한 피해가 분산 이득과 비교하여 적습니까?
꼭 그럴 필요는 없습니다 . 보통 입니다. 트레이드 오프가 가치가 있는지 여부는 손실 기능에 달려 있습니다. 그러나 실제 생활에서 우리가 신경 쓰는 것은 종종 제곱 오차와 유사합니다 (예를 들어 우리는 절반 크기의 두 오류보다 하나의 큰 오류에 더 관심이 있습니다).
반례로서 대학 입학을 위해 사람들의 SAT 점수를 인구 통계의 평균 SAT로 약간 줄인다고 상상해보십시오 (그러나 정의 된). 올바르게 수행하면 편차를 줄이고 편견을 도입하는 동안 사람의 (일종의) 능력에 대한 추정 오차를 제곱합니다. 대부분의 사람들은 IMHO가 그러한 절충이 용납 될 수 없다고 주장합니다.
2) 왜 항상 작동합니까?
3) 0 (원점)에 대해 흥미로운 점은 무엇입니까? 분명히 우리는 원하는 곳 어디에서든 축소 할 수 있지만 (예 : Stein 추정기) 원점만큼 잘 작동합니까?
나는 이것이 일반적으로 계수 또는 효과 추정치를 축소하기 때문이라고 생각합니다. 대부분의 효과가 크지 않다고 생각할 이유가 있습니다 (예 : Andrew Gelman의 테이크 참조 ). 한 가지 방법은 모든 것이 모든 것에 강한 영향을 미치는 모든 것에 영향을 미치는 세상은 예측할 수없는 폭력적인 세상이라는 것입니다. 우리의 세계는 우리가 장수하고 반 안정적인 문명을 건설 할 수있을만큼 충분히 예측 가능하기 때문에 대부분의 효과는 크지 않습니다.
대부분의 효과는 크지 않기 때문에 무시할 수있는 효과의 부하를 정확하게 줄이면서 실제로 몇 가지 큰 효과를 잘못 축소하는 것이 좋습니다.
나는 이것이 우리 세계의 재산이라고 생각하며 아마도 수축이 실용적이지 않은 자체 일관성있는 세계를 만들 수 있습니다 (대부분 평균 제곱 오차를 비실용적 손실 함수로 만들 것입니다). 우리가 사는 세상이 아닙니다.
반면, 베이지안 분석에서 수축을 사전 분포로 생각할 때 실제로 0으로의 수축이 실제로 해로운 경우가 있습니다.
한 가지 예는 가우시안 프로세스의 길이 스케일 (0이 문제가되는 경우)입니다. Stan 매뉴얼 의 권장 사항 은 무시할 수있는 무게를 0에 가깝게, 즉 작은 값을 0에서 효과적으로 "축소"하는 사전을 사용하는 것입니다. 마찬가지로, 음 이항 분포의 분산에 권장되는 선행은 효과적으로 0에서 멀어집니다. 마지막으로, 정규 분포가 정밀하게 매개 변수화 될 때마다 (INLA 에서처럼), 역 감마 또는 0에서 멀어지는 다른 이전 분포를 사용하는 것이 유용합니다.
4) 다양한 유니버설 코딩 방식이 원점 주변에서 더 적은 수의 비트를 선호하는 이유는 무엇입니까? 이 가설은 단순히 더 가능성이 있습니까?
이제 이것은 내 심도를 벗어난 방법이지만 Wikipedia는 보편적 인 코딩 체계 에서 모든 긍정적 인 대해 정의 적으로 ) 을 기대 속성은 정의의 간단한 결과 인 것처럼 보입니다. 수축과 관련이 없습니다 (또는 뭔가 빠졌습니까?)피( i ) ≥ P( i + 1 )나는