수축이 실제로 작동하는 이유는 무엇입니까? 0에 대해 특별한 점은 무엇입니까?


15

이 사이트에는 이미 같은 문제에 대한 게시물이 있습니다. 왜 수축이 작동합니까?

그러나 답변이 인기가 있지만 질문의 요지가 실제로 해결되지 않았다고 생각합니다. 추정에 약간의 편향을 도입하면 분산이 감소하고 추정 품질이 향상 될 수 있음이 분명합니다. 하나:

1) 왜 편향 도입으로 인한 피해가 분산 이득과 비교하여 적습니까?

2) 왜 항상 작동합니까? 예를 들어 릿지 회귀의 경우 : 존재 정리

3) 0 (원점)에 대해 흥미로운 점은 무엇입니까? 분명히 우리가 좋아하는 곳이면 어디든 축소 할 수 있지만 (예 : Stein Estimator ) 원점만큼 잘 작동합니까?

4) 다양한 유니버설 코딩 방식 이 원점 주변에서 더 적은 수의 비트를 선호하는 이유는 무엇 입니까? 이 가설은 단순히 더 가능성이 있습니까?

입증 된 이론 또는 확립 된 결과에 대한 답변이 기대됩니다.


@ KarolisKoncevičius, 링크를 수정 해 주셔서 감사합니다! 그러나 마지막 언어를 제외하고는 언어 편집이 그다지 도움이되지 않을 수 있습니다. 다른 것들은 여분의 텍스트를 추가하여 게시물을 읽을 수 없게 만듭니다.
Richard Hardy

1
3) "원점에 대해 너무 흥미로운 점은 무엇입니까?" 이 진술을 어떻게 이해합니까?. 그룹 요인 (예 : 국가) 및 개별 요인 (예 : 도시)이있는 경우 축소는 평균을 국가 수준으로 설정 한 다음 충분한 데이터가있는 도시 수준 편차 만 계수를 갖습니다. 즉 모델이 그룹 수준으로 푸시됩니다. (국가) 평균 (도시 수준 계수를 0으로 밀어

답변:


7

1) 왜 편향 도입으로 인한 피해가 분산 이득과 비교하여 적습니까?

꼭 그럴 필요는 없습니다 . 보통 입니다. 트레이드 오프가 가치가 있는지 여부는 손실 기능에 달려 있습니다. 그러나 실제 생활에서 우리가 신경 쓰는 것은 종종 제곱 오차와 유사합니다 (예를 들어 우리는 절반 크기의 두 오류보다 하나의 큰 오류에 더 관심이 있습니다).

반례로서 대학 입학을 위해 사람들의 SAT 점수를 인구 통계의 평균 SAT로 약간 줄인다고 상상해보십시오 (그러나 정의 된). 올바르게 수행하면 편차를 줄이고 편견을 도입하는 동안 사람의 (일종의) 능력에 대한 추정 오차를 제곱합니다. 대부분의 사람들은 IMHO가 그러한 절충이 용납 될 수 없다고 주장합니다.

2) 왜 항상 작동합니까?

3) 0 (원점)에 대해 흥미로운 점은 무엇입니까? 분명히 우리는 원하는 곳 어디에서든 축소 할 수 있지만 (예 : Stein 추정기) 원점만큼 잘 작동합니까?

나는 이것이 일반적으로 계수 또는 효과 추정치를 축소하기 때문이라고 생각합니다. 대부분의 효과가 크지 않다고 생각할 이유가 있습니다 (예 : Andrew Gelman의 테이크 참조 ). 한 가지 방법은 모든 것이 모든 것에 강한 영향을 미치는 모든 것에 영향을 미치는 세상은 예측할 수없는 폭력적인 세상이라는 것입니다. 우리의 세계는 우리가 장수하고 반 안정적인 문명을 건설 할 수있을만큼 충분히 예측 가능하기 때문에 대부분의 효과는 크지 않습니다.

대부분의 효과는 크지 않기 때문에 무시할 수있는 효과의 부하를 정확하게 줄이면서 실제로 몇 가지 큰 효과를 잘못 축소하는 것이 좋습니다.

나는 이것이 우리 세계의 재산이라고 생각하며 아마도 수축이 실용적이지 않은 자체 일관성있는 세계를 만들 수 있습니다 (대부분 평균 제곱 오차를 비실용적 손실 함수로 만들 것입니다). 우리가 사는 세상이 아닙니다.

반면, 베이지안 분석에서 수축을 사전 분포로 생각할 때 실제로 0으로의 수축이 실제로 해로운 경우가 있습니다.

한 가지 예는 가우시안 프로세스의 길이 스케일 (0이 문제가되는 경우)입니다. Stan 매뉴얼 의 권장 사항 은 무시할 수있는 무게를 0에 가깝게, 즉 작은 값을 0에서 효과적으로 "축소"하는 사전을 사용하는 것입니다. 마찬가지로, 음 이항 분포의 분산에 권장되는 선행은 효과적으로 0에서 멀어집니다. 마지막으로, 정규 분포가 정밀하게 매개 변수화 될 때마다 (INLA 에서처럼), 역 감마 또는 0에서 멀어지는 다른 이전 분포를 사용하는 것이 유용합니다.

4) 다양한 유니버설 코딩 방식이 원점 주변에서 더 적은 수의 비트를 선호하는 이유는 무엇입니까? 이 가설은 단순히 더 가능성이 있습니까?

이제 이것은 내 심도를 벗어난 방법이지만 Wikipedia는 보편적 인 코딩 체계 에서 모든 긍정적 인 대해 정의 적으로 ) 을 기대 속성은 정의의 간단한 결과 인 것처럼 보입니다. 수축과 관련이 없습니다 (또는 뭔가 빠졌습니까?)(나는)(나는+1)나는


1
1)에 대한 답은 실제로 좋습니다!
David

Andrew Gelman은 계수에 입력 값을 곱하는 표준 모델을 염두에두고있었습니다. 반드시 그런 것은 아닙니다. 계수가 모델에 반비례하면 어떻게 될까요? 그런 다음 0은 일을 폭파시킵니다.
Cagdas Ozgenc

1
@CowboyTrader 예. 0에 문제가 있고 축소되는 실제 사용 사례가 있습니다 (답변에 추가됨). 따라서 제로로의 수축은 (실제로) 자주 작동하지만 근본적인 수학적 진실이 아닌 휴리스틱이라는 점을 약간지지한다고 생각합니다.
Martin Modrák

1
나의 초기 반응에 대해 죄송합니다. 당신의 대답은 더욱 의미있게되고 있습니다. 수축은 제곱 손실뿐만 아니라 다른 손실 기능에서도 작동합니다. 내가 실제로 따르는 문제는 왜 항상 작동 하는가? 평균 / 위치 매개 변수의 경우 0은 마법의 숫자 인 것 같습니다.
Cagdas Ozgenc '

σ

0

리지는, 올가미 및 탄성 그물 전과와 베이지안 방법과 유사 제로의 중앙에있다 - 예를 들면, 희소성과 통계 학습 Hastie, Tibshirani와 웨인 라이트, 섹션으로는 2.9 Lq Penalties and Bayes Estimates"이러한 추정량의 베이지안보기가 .... 이는 올가미 추정치가 Laplacian을 사용한 Bayesian MAP (최대 aposteriori) 추정기임을 의미합니다. "

귀하의 질문에 답변하는 한 가지 방법 ( what's so special about zero?)은 우리가 추정하는 효과가 평균적으로 0이고, 그 영향이 작다는 것입니다 (즉, 우리의 선행 0의 중심에 있어야 함). 그런 다음 베이지안 의미에서 추정치를 0으로 축소하는 것이 최적이며, 올가미와 릿지 및 탄성 그물은 해당 렌즈를 통해 생각할 수 있습니다.


3
0으로 축소하는 것은 특별한 것이 아닙니다 (결과에 특정 요인을 곱하기 때문에 방정식이 더 단순하다는 점을 제외하고). 다른 지점으로 축소 할 수도 있습니다. 그 점이 실제 값에서 멀어 질수록 수축 성능은 떨어집니다 (그러나 어떤 점에서든 최소한 가우스 분포 변수의 경우 약간의 수축이있어 성능이 약간 향상됩니다). 따라서 결과가 일반적으로 0에서 멀어지면 0으로 축소하면 거의 개선되지 않습니다.
Sextus Empiricus

1
@MartijnWeterings 진실 그 자체에 대한 사전 결정을하는 것이 이상적 일 것입니다. 그러나 왜 0으로 축소하면 여전히 개선이 있습니까? 그것이 내가 추구하는 것입니다.
Cagdas Ozgenc

@CowboyTrader 모든 값으로 축소 하면 개선됩니다. 이것이 0에서도 작동하는 이유입니다.
Sextus Empiricus

@MartijnWeterings 네, 그러나 학습 이론의 한계는 거의 항상 기원에 근거합니다. 그들은 원점을 중심으로 공 / 다면체 / 등을 넣었습니다. 단지 편리한 편의입니까? MDL 가설 인코딩은 0에 가장 짧은 코드 길이를 제공하여 정수를 인코딩합니까? 우연의 일치입니까?
Cagdas Ozgenc

1
따라서 모든 변수가 실제로 실제로 모델의 일부 (실제로는 일반적이지 않음) 인 경우 능형 회귀를 수행한다고하면 제대로 작동하지 않습니다. 아마도 이것이 애드리안이 "평균적으로 효과가 0이고 작은 경향이 있습니다"라는 의미 일 것입니다. 매개 변수 및 많은 아마 필요하지 않은 경우, 다음 효과의 대부분은 제로 또는 작은입니다).
섹스 투스 엠피 리 쿠스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.