다음 세 가지 현상을 고려하십시오.
Stein의 역설 : 다변량 정규 분포에서 얻은 일부 데이터를 감안할 때 표본 평균은 실제 평균을 잘 추정하지 못합니다. 표본 평균의 모든 좌표를 0 (또는 평균을 향하여 또는 내가 올바르게 이해하면 실제로는 임의의 값)으로 축소하면 평균 제곱 오차가 낮은 추정값을 얻을 수 있습니다.
NB : 보통 Stein의 역설은 에서 단 하나의 데이터 포인트 만 고려하여 공식화됩니다 . ; 이것이 중요하고 위의 공식이 정확하지 않은 경우 수정하십시오.
릿지 회귀 : 일부 종속 변수 및 일부 독립 변수 주어지면 표준 회귀 경향 데이터를 과적 합하고 샘플 외부 성능을 저하시킵니다. 를 0 으로 축소하여 과적 합을 줄일 수 있습니다 .
다단계 / 혼합 모형의 랜덤 효과 : 일부 범주 형 예측 변수 (예 : 학교 ID 및 학생의 성별)에 의존하는 일부 종속 변수 (예 : 학생의 키)를 고려할 때 일부 예측 변수를 '무작위'로 처리하는 것이 좋습니다. 각 학교의 평균 학생 키는 기본 정규 분포에서 비롯됩니다. 이로 인해 학교당 평균 신장 추정치가 전 세계 평균으로 축소됩니다.
나는이 모든 것이 동일한 "수축"현상의 다양한 측면이라고 생각하지만 확실하지 않으며 확실히 그것에 대한 좋은 직감이 부족합니다. 내 주요 질문은 : 이 세 가지 사이에 실제로 깊은 유사성이 있습니까, 아니면 단지 피상적 인 모양입니까? 여기서 공통 주제는 무엇입니까? 그것에 대한 올바른 직감은 무엇입니까?
또한,이 퍼즐의 일부가 실제로 맞지 않습니다.
능선 회귀에서 는 균일하게 축소되지 않습니다. 융기 수축은 실제로 의 특이 값 분해와 관련이 있으며, 저 분산 방향이 더 줄어 듭니다 (예 : 통계 학습 요소 3.4.1 참조). 그러나 James-Stein 추정기는 단순히 표본 평균을 취하여 하나의 스케일링 계수로 곱합니다. 그것은 어떻게 맞습니까?X
업데이트 : 참조 불평등 한 차이로 제임스 - 스타 인 견적 과 여기에 예를 들면 의 차이에 대한 계수.
표본 평균은 3 미만의 차원에서 최적입니다. 회귀 모형에 예측 변수가 하나만 있거나 두 개일 때 능선 회귀는 항상 보통 최소 제곱보다 나쁘다는 의미입니까? 실제로, 그것을 생각해 보니, 능선 수축이 유리한 1D (즉, 단순하고 비다 중 회귀) 상황을 상상할 수 없습니다 ...
업데이트 : 호 참조 일반 최소 제곱 회귀 분석을 통해 개선을 제공 할 수있게 능선 회귀 정확히 어떤 조건입니다에서?
반면에 표본 평균은 항상 3보다 큰 차원에서 차선책입니다. 이는 모든 예측 변수가 상관 관계가없는 (직교) 예측 변수가 3 개 이상인 경우 능선 회귀가 항상 OLS보다 낫다는 것을 의미합니까? 능선 회귀는 일반적으로 다중 공선 성 및 항 을 "안정화"해야합니다 .
업데이트 : 예! 위와 같은 스레드를 참조하십시오.
ANOVA의 다양한 요소가 고정 효과 또는 랜덤 효과로 포함되어야하는지에 대한 열띤 토론이 종종 있습니다. 동일한 논리에 의해, 둘 이상의 레벨이있는 경우 (또는 둘 이상의 요인이있는 경우 이제 혼란 스럽습니다) 항상 임의의 요인으로 간주해서는 안됩니까?
업데이트 : ?
업데이트 : 나는 훌륭한 답변을 얻었지만 아무도 큰 그림을 충분히 제공하지 못하므로 질문을 "열게"할 것입니다. 기존 답변을 능가하는 새로운 답변에 대해 최소 100 점의 현상금을 수여 할 것을 약속 할 수 있습니다. 나는 주로 수축의 일반적인 현상이 이러한 다양한 상황에서 어떻게 나타나는지 설명하고 이들 간의 주요 차이점을 지적 할 수있는 통일 된 견해를 찾고 있습니다.