수축에 대한 통일 된 견해 : Stein의 역설, 능선 회귀 및 혼합 모형의 임의 효과 간의 관계 (있는 경우)는 무엇입니까?


64

다음 세 가지 현상을 고려하십시오.

  1. Stein의 역설 : 다변량 정규 분포에서 얻은 일부 데이터를 감안할 때 표본 평균은 실제 평균을 잘 추정하지 못합니다. 표본 평균의 모든 좌표를 0 (또는 평균을 향하여 또는 내가 올바르게 이해하면 실제로는 임의의 값)으로 축소하면 평균 제곱 오차가 낮은 추정값을 얻을 수 있습니다.Rn,n3

    NB : 보통 Stein의 역설은 에서 단 하나의 데이터 포인트 만 고려하여 공식화됩니다 . ; 이것이 중요하고 위의 공식이 정확하지 않은 경우 수정하십시오.Rn

  2. 릿지 회귀 : 일부 종속 변수 및 일부 독립 변수 주어지면 표준 회귀 경향 데이터를 과적 합하고 샘플 외부 성능을 저하시킵니다. 를 0 으로 축소하여 과적 합을 줄일 수 있습니다 .yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. 다단계 / 혼합 모형의 랜덤 효과 : 일부 범주 형 예측 변수 (예 : 학교 ID 및 학생의 성별)에 의존하는 일부 종속 변수 (예 : 학생의 키)를 고려할 때 일부 예측 변수를 '무작위'로 처리하는 것이 좋습니다. 각 학교의 평균 학생 키는 기본 정규 분포에서 비롯됩니다. 이로 인해 학교당 평균 신장 추정치가 전 세계 평균으로 축소됩니다.y

나는이 모든 것이 동일한 "수축"현상의 다양한 측면이라고 생각하지만 확실하지 않으며 확실히 그것에 대한 좋은 직감이 부족합니다. 내 주요 질문은 : 이 세 가지 사이에 실제로 깊은 유사성이 있습니까, 아니면 단지 피상적 인 모양입니까? 여기서 공통 주제는 무엇입니까? 그것에 대한 올바른 직감은 무엇입니까?

또한,이 퍼즐의 일부가 실제로 맞지 않습니다.

  • 능선 회귀에서 는 균일하게 축소되지 않습니다. 융기 수축은 실제로 의 특이 값 분해와 관련이 있으며, 저 분산 방향이 더 줄어 듭니다 (예 : 통계 학습 요소 3.4.1 참조). 그러나 James-Stein 추정기는 단순히 표본 평균을 취하여 하나의 스케일링 계수로 곱합니다. 그것은 어떻게 맞습니까?XβX

    업데이트 : 참조 불평등 한 차이로 제임스 - 스타 인 견적여기에 예를 들면 의 차이에 대한 계수.β

  • 표본 평균은 3 미만의 차원에서 최적입니다. 회귀 모형에 예측 변수가 하나만 있거나 두 개일 때 능선 회귀는 항상 보통 최소 제곱보다 나쁘다는 의미입니까? 실제로, 그것을 생각해 보니, 능선 수축이 유리한 1D (즉, 단순하고 비다 중 회귀) 상황을 상상할 수 없습니다 ...

    업데이트 : 호 참조 일반 최소 제곱 회귀 분석을 통해 개선을 제공 할 수있게 능선 회귀 정확히 어떤 조건입니다에서?

  • 반면에 표본 평균은 항상 3보다 큰 차원에서 차선책입니다. 이는 모든 예측 변수가 상관 관계가없는 (직교) 예측 변수가 3 개 이상인 경우 능선 회귀가 항상 OLS보다 낫다는 것을 의미합니까? 능선 회귀는 일반적으로 다중 공선 성 및 항 을 "안정화"해야합니다 .(XX)1

    업데이트 : 예! 위와 같은 스레드를 참조하십시오.

  • ANOVA의 다양한 요소가 고정 효과 또는 랜덤 효과로 포함되어야하는지에 대한 열띤 토론이 종종 있습니다. 동일한 논리에 의해, 둘 이상의 레벨이있는 ​​경우 (또는 둘 이상의 요인이있는 경우 이제 혼란 스럽습니다) 항상 임의의 요인으로 간주해서는 안됩니까?

    업데이트 : ?


업데이트 : 나는 훌륭한 답변을 얻었지만 아무도 큰 그림을 충분히 제공하지 못하므로 질문을 "열게"할 것입니다. 기존 답변을 능가하는 새로운 답변에 대해 최소 100 점의 현상금을 수여 할 것을 약속 할 수 있습니다. 나는 주로 수축의 일반적인 현상이 이러한 다양한 상황에서 어떻게 나타나는지 설명하고 이들 간의 주요 차이점을 지적 할 수있는 통일 된 견해를 찾고 있습니다.


내 이해는 릿지 회귀 (및 올가미 및 탄성 그물과 같은 사촌)가 임의의 효과 모델이 상호 배타적 인 수준 또는 상관 된 관찰 그룹 (예 : 학교 ID별로 그룹화 된 학생의 사회 경제적 상태).
RobertF

3
통일 된 답변을 얻는 가장 좋은 장소는 BLUP (Best Linear Unbiased Predictor) 키워드를 보는 것입니다. 동물 사육 문헌에서. 통계 과학에서 Robinson의 설문 조사 를 참조하십시오 . 또는 Marvin Gruber의 저서
Xi'an

2
@ Xi'an : 고마워요, 나는 이미 Gruber의 책을 스스로 발견했으며, James-Stein과 능선 회귀에 대해 많이 논의했지만, 두 가지에 대한 직접적인 비교는 즉시 찾지 못했습니다 (전체 책 읽기는 지금 당장은 옵션이 아닙니다 ...). 로빈슨의 설문 조사 링크를 보내 주셔서 감사합니다. 동물 사육 ! 누가 이런일이 일어날 거라고 생각 했 겠어. 그건 그렇고, 관련 스레드에 대한 귀하의 의견을 보았으며 실제로 여기에 만족스러운 답변을 제공 할 수있는 사람들 중 하나 일 수 있습니다. 이것은 좋을 것입니다; 지금까지 아무런 대답도 나에게 만족하지 않습니다.
amoeba는 Reinstate Monica가

2
@ Xi'an : 글쎄, 아래에 도움이되는 의견이 있으면 여기에서 답을 놓치게됩니다. 어쨌든, 나는 Robinson을 읽기 시작했고 "Best Linear Unbiased Predictor"가 바이어스 추정기라는 것을 깨달았습니다. 좋은 용어입니다.
아메바는 2

4
카스텔라 & 조지 1992 년 "어린 이용 턱받이"가 출판되도록 제목을 변경 한 후 Wang & Gianola는 1993 년 유럽 동물 생산 협회에서 "돼지 용 턱받이"소개를 썼습니다!
시안

답변:


30

James–Stein 추정기 및 능선 회귀 간의 연결

를 길이 의 , 의 관측 벡터로 하자 . James-Stein 추정기는 릿지 회귀의 관점에서는 측정 할 수 통해 솔루션이 두 추정값이 동일한 형식임을 쉽게 알 수 있지만 추정해야합니다.yθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2James-Stein 추정기에서 를 확인하고 교차 검증을 통해 능선 회귀에서 를 결정 합니다.λ

James–Stein 추정기와 임의 효과 모델 간의 연결

유전학에서 혼합 / 무작위 효과 모델에 대해 먼저 논의 해 보자. 모델은 고정 효과가없고 이면 모델은 일부는 James-Stein 추정기 설정과 동일합니다. 베이지안 아이디어.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

랜덤 효과 모델과 능선 회귀 연결

위의 임의 효과 모델에 중점을두면 추정은 문제 시 . 증명은 패턴 인식 및 기계 학습의 3 장에서 찾을 수 있습니다 .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

(다단계) 랜덤 효과 모델과 유전학의 모델 간의 연결

상기 랜덤 효과 모델에서의 치수 이고 그리고 그 이고 . 를 로 벡터화 하고 그에 따라 반복 하면 계층 적 / 클러스터 구조 클러스터와 각각 단위를 갖습니다 . 우리가 퇴행 경우 반복에 , 우리는의 임의의 효과를 얻을 수있는 에 이 종류의 역방향 회귀 비슷하지만, 각 클러스터.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


감사의 말 : 처음 세 가지 요점은이 두 중국 기사 1 , 2 에서 크게 배웁니다 .


(+1) 고마워요! 이것은 매우 도움이되며, 내가 잘 알고 자주 참조하는 주교의 교과서를 볼 것입니다. 혼합 모델에서 아무것도 찾을 것으로 기대하지는 않았지만 3.3 절 "베이지안 선형 회귀"는 실제로 다른 용어를 사용하는 것처럼 보입니다. 알고 아주 좋아요! 하지만 내 총알 문제에 대해 어떻게 생각하십니까?
amoeba는 Reinstate Monica가

소식에 너무 많은 질문이 있습니다. :) 1) 위에서 대답했듯이, James-Stein 추정기 및 능선 회귀는 공변량 가 없거나 항등 행렬 일 때 동일합니다. @James가 언급했듯이 2,3,4) 예측 변수의 수 ( 위)가 반드시 응답 차원 과 같을 필요는 없습니다 . Xpm
Randel

BTW, James-Stein Estimator에서 샘플 평균 / 평균이 사용되는 것을 볼 수 없으며 실제로 Estimator 취한 다음 축소합니다 . y0
Randel

2
JS 추정기와 능선 회귀는 서로 다릅니다. p- 벡터 의 차원 위치에 대한 능형 회귀 추정치 는 설계 행렬 에 해당하며, 추정치 누락한다 (비선형!) JS-추정기 분모 항pIp(1+λ)1Ipyy2
앤드류 M

3
나는 그것이 당신이 능선 추정기로 부르는 것에 달려 있다고 생각합니다. 초기 Hoerl and Kennard (1970)의 의미 에서 데이터에 대한 의존성은 실제로 없습니다 . Casella의 PhD 논문 (1978)의 후반에서 의 수동 결정은 잔차 제곱합의 함수로 대체됩니다. λλ
시안

6

커뮤니티가이 답변을 구체화하는 연습으로 남겨 두겠습니다. 그러나 일반적으로 수축 추정기가 유한 표본에서 * * 바이어스되지 않은 추정기를 지배하는 이유 는 Bayes 추정기 가 지배 될 수 없기 때문입니다 , 많은 수축량 추정값은 Bayes로 파생 될 수 있습니다. 1234

이 모든 것은 결정 이론의 요지에 해당합니다. 철저하지만 다소 비우호적 인 참고 문헌은 Lehmann과 Casella의 "점 추정 이론"입니다. 어쩌면 다른 사람들이 더 친근한 언급을 할 수 있습니까?


1 추정기의 파라미터의 데이터에 되는 지배 다른 추정기 의해 각위한 경우 위험 (예를 들어, 평균 제곱 에러) 은 이상 이고 는 하나 이상의 대해 보다 합니다 . 다시 말해, 매개 변수 공간 어디에서나 성능이 같거나 향상됩니다 .δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 추정기는 (예 : 같이 데이터가 주어지면 의 사후 기대치 인 경우 베이 즈입니다 (어쨌든 제곱 오류 손실 후부에서 기대되는 부분. 당연히 서로 다른 사전은 다른 하위 집합에 대해 다른 위험을 초래합니다 . 중요한 장난감의 예는 이전의 모든 입니다. 점 에 대한 질량 . 그런 다음 Bayes 추정기가 상수 함수임을 보여줄 수 있습니다.θπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0물론 과 (와) 근처에서 성능이 매우 우수하고 다른 곳에서는 성능이 매우 좋지 않습니다. 그럼에도 불구하고, 추정량 만 에 0 위험을 초래하기 때문에 지배 할 수 없습니다 .θ0θ0

3 당연한 질문은 지배 할 수없는 견적 자 ( 허용 할 수 는 없지만 snazzier가 될 수는 없습니까?)가 베이 즈가 필요한가입니다. 대답은 거의입니다. "완전한 수업 정리"를 참조하십시오.

4 예를 들면, 릿지 회귀는 노멀 (0, 배치 베이지안 순서로 발생하는 에 앞서) , 및 랜덤 효과 모델은 동일한 프레임 워크 경험적 베이지안 순서로 발생을 . 이러한 주장은 베이지안 허용 이론의 바닐라 버전이 모든 매개 변수가 적절한 사전에 있다고 가정하기 때문에 복잡합니다. 능선 회귀에서도 "선행"이 분산 에 위치하기 때문에 사실이 아닙니다.1/λ2βσ2오차항의 항은 상수 함수 (Lebesgue 측정 값)로, 적절한 (통합) 확률 분포가 아닙니다. 그럼에도 불구하고, 그러한 "부분적으로"베이 즈 추정기들은 적절한 베이 즈 인 추정기 시퀀스의 "제한"임을 입증함으로써 인정 될 수있다. 그러나 여기의 증거는 다소 복잡하고 섬세합니다. "일반화 된 베이 추정기"를 참조하십시오.


1
대단히 감사합니다 (+1). 귀하의 답변이보다 상세하게 되길 바랄뿐입니다 ... 귀하의 각주 (3) : 모든 Bayes 견적 자들이 이전과 무관하게 허용 / 불허가 (말이 마음에 듭니다) 고 말하는가? 그러나 James-Stein 추정기는 경험적인 Bayes에서 파생 될 수 있습니다. 왜 허용되지 않습니까? 또한, 예를 들어 릿지 회귀 분석에서는 0이 아닌 다른 값으로 미리 집중할 수 있습니다. , 여전히 합리적인 정규화 전략? βN(β0,1/λ2)
amoeba는 Reinstate Monica가

2
James-Stein 추정기가 허용되지 않는 이유는 여기 에서 답변을 찾을 수 있습니다 . Lehmann & Casella (1998), Point of Estimation 이론 에서 상세하고 흥미로운 토론이 있습니다.
Randel

@ 랜델 : 예, 그것은 용납 할 수 없다는 것을 알고 있으며, 추론을 보았습니다. 제임스-스테인은 경험적을 통해 이해할 수 있기 때문에 모든 베이 즈 견적자가 허용된다는 앤드류의 진술 (정확하게 이해 되었음)에 어떻게 부합하는지 궁금합니다. Bayes ...
amoeba는 Reinstate Monica가

2
@Amoeba : 그렇습니다. 적절한 사전에 사후에있는 Bayes 추정기 는 허용 가능한 추정기로 이어집니다. 경험적인 Bayes가 진행되는 한, 그러한 절차는 사실 bonafide Bayes가 아닙니다. 데이터에 대한 사전 의존도가 병리로 이어질 수 있기 때문입니다. 때로는 허용되는 것으로 보일 수도 있고 그렇지 않은 경우도 있습니다. 일반적으로 사례별로 작업해야합니다. 사실 고전 선형 혼합 모델이 허용되는지 알 수 없기 때문에이 시점에서 조금 더 엉뚱하게 답변을 편집했습니다!
Andrew M

3
정품 Bayes 추정기는 James-Stein 추정기가 최소값이 아니기 때문에 거의 작동하지 않습니다. 예를 들어 Bill Strawderman은 (1975 년) 모든 일반적인 일반적인 평균 문제에 대해 5보다 작은 차원의 최소 Maxes Bayes 추정기가 없음을 보여주었습니다.
시안

2
  • James-Stein은 반응의 차원이 3 이상이라고 가정합니다. 표준 능선 회귀 분석에서 반응은 1 차원입니다. 예측 변수 수와 반응 차원을 혼동하고 있습니다.

  • 말하자면, 나는 그러한 상황들 사이의 유사성을 보았지만, 요인을 고정 해야하는지 무작위로 해야하는지, 적용해야 할 축소 정도는 특정 데이터 세트에 달려 있습니다. 예를 들어, 예측 변수가 직교할수록 표준 회귀 분석보다 릿지 회귀 분석을 선택하는 것이 더 적합하지 않습니다. 모수의 수가 많을수록 경험적 베이를 통해 데이터 세트 자체에서 이전 항목을 추출한 다음 모수 추정값을 축소하는 데 사용하는 것이 좋습니다. 신호 대 잡음비가 높을수록 수축 등의 이점이 줄어 듭니다.


답변 감사합니다. 첫 번째 글 머리 기호와 관련하여 : 능선 회귀에서 줄어드는 것은 이며 예측 변수만큼 많은 차원이 있습니까? β
amoeba 말한다 Reinstate Monica

1
그렇다면 JS는 MSE가 추정되고 베타의 분산 공분산 행렬이 임의의 경우로 확장되었다고 가정하면 JS가 더 잘 작동해야합니다. 이 경우 JS는 베타의 포인트 추정치에 스케일링 계수를 곱하지 않습니다. Ridge Regression과 마찬가지로 베타의 다른 구성 요소는 다르게 축소됩니다.
James

공분산 행렬에 대한 아주 좋은 점 ! 나는 이것이 적어도 첫 번째 글 머리 기호에 대답한다고 생각합니다. β
amoeba는 Reinstate Monica가

2
@James : 선형 모델은 샘플 ( )을 차원 부분 공간 (디자인 매트릭스에 의해 스팬 된 열 )에 투영하는 것으로 생각할 수 있습니다 . 특히, 우리는 항상 그것을 간단하게 정체성에 투영 할 수있었습니다. 단일 관측치 만있는 경우 벡터 의 표본 평균을 사용하는 것과 같습니다 . Rnpn
Andrew M

2

다른 사람들이 말했듯이, 세 가지의 연결은 이전 정보를 측정에 통합하는 방법입니다.

  1. Stein 역설의 경우 입력 변수 사이의 실제 상관 관계는 0이어야하며 상관 관계가 아니라 독립성을 암시하기 때문에 가능한 모든 상관 관계 측정 값을 알아야합니다. 따라서 단순 변수보다 변수를 더 잘 구성 할 수 있습니다. 표본은 다양한 상관 측정을 의미하고 억제합니다. 베이지안 프레임 워크에서는 문자 적으로 샘플 평균 간의 상관 관계를 유발하는 이벤트의 무게를 줄이고 다른 것의 업 무게를 측정하는 사전을 구성 할 수 있습니다.
  2. 능형 회귀 분석의 경우 조건부 기대 값 E (y | x)에 대한 적절한 추정치를 찾고 싶습니다. 원칙적으로 이것은 무한한 차원의 문제이며 한정된 수의 측정 값 만 있기 때문에 잘못 정의되어 있습니다. 그러나 사전 지식은 데이터를 모델링하는 연속 함수를 찾고 있다는 것입니다. 연속 함수를 모델링하는 방법은 무한히 많지만 세트는 다소 작기 때문에 여전히 정의가 잘못되었습니다. 릿지 회귀는 가능한 연속 함수를 정렬하고 테스트하여 최종 자유도에서 멈추는 간단한 방법 중 하나입니다. 해석은 VC 차원 그림입니다. 릿지 회귀 분석 동안 주어진 자유도를 가진 af (x, p1, p2 ...) 모델이 데이터에 내재 된 불확실성을 얼마나 잘 설명하는지 확인합니다. 실제로, 그것은 f (x, p1, p2 ... ) 및 실험적 P (p1, p2 ...)는 E (y | x)뿐만 아니라 전체 P (y | x) 분포를 재구성 할 수 있습니다. 이러한 방식으로, 자유도가 너무 높은 모델 (일반적으로 과적 합)은 무게가 줄어 듭니다. 특정 자유도 이후에 더 많은 매개 변수 평균이 매개 변수간에 더 큰 상관 관계를 제공하므로 P (f (x, p1, p2)가 훨씬 넓습니다. ..)) 분포. 또 다른 해석은 원래 손실 함수도 측정 값이며 주어진 샘플에 대한 평가에는 불확실성이 있으므로 실제 작업은 손실 함수를 최소화하는 것이 아니라 최소보다 작은 최소값을 찾는 것입니다 다른 것 (실제로 한 자유도에서 다른 자유 도로 변경하는 것은 베이지안 결정이므로, 하나는 손실 함수를 크게 줄인 경우에만 매개 변수의 수를 변경합니다). 능선 회귀는이 두 그림에 대한 근사치 (CV- 치수, 예상 손실)로 해석 될 수 있습니다. 예를 들어 입자 물리학에서 더 높은 자유도를 원할 경우 생성 된 입자 수가 푸 아송 분포 일 것으로 예상되는 입자 충돌을 연구하여 이미지에서 입자 트랙을 재구성합니다 (예 : 사진). )는 주어진 수의 트랙을 선호하고 이미지의 트랙 번호 해석이 더 작거나 더 높은 모델을 억제하는 방식입니다.
  3. 세 번째 사례는 또한 측정에 사전 정보를 구현하려고 시도합니다. 즉, 이전 측정에서 학생들의 키는 Cauchy가 아닌 Gaussian 분포에 의해 매우 잘 모델링 될 수 있다는 것이 알려져 있습니다.

간단히 말해, 예상 할 사항을 알고 데이터를 이전 데이터 (사전 정보)로 분류하면 측정의 불확실성을 줄일 수 있다는 것입니다. 이 이전 데이터는 측정에 맞추기 위해 사용하는 모델링 기능을 제한합니다. 간단한 경우 Bayesian 프레임 워크에서 모델을 작성할 수 있지만 가능한 모든 연속 함수를 통합하여 Bayesian Maximal A Posterior 값을 갖는 함수를 찾는 것과 같이 때로는 비실용적입니다.


2

제임스 스타 인 추정기 및 릿지 회귀

치다

y=Xβ+ϵ

함께 ϵN(0,σ2I)

최소 제곱 솔루션은 형태입니다

β^=S1Xy 여기서 입니다.S=XX

β^ 에 대한 바이어스이다 및 covriance 행렬을 갖는다 . 그러므로 우리는 쓸 수 있습니다βσ2S1

β^N(β,σ2S1) 참고 , MLE 상기 최대 가능성 추정치이다.β^

제임스 스타 인

Jame Stein의 단순화를 위해 가정 합니다. 제임스 스타 인은 다음에 사전을 추가 할 것 형태의,S=Iβ

βN(0,aI)

그리고 폼의 후방 얻을 이들은 그런 다음 하여 를 추정하고 다음 형식의 James Stein 추정값을 얻습니다.aa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

릿지 회귀

릿지 회귀에서 는 일반적으로 표준화되어 있으며 ( 의 각 열에 대해 평균 1, 평균 1 ) 회귀 매개 변수 가 비슷합니다. 이것이 대해 때 .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

릿지의 회귀 추정치 ,로서 정의된다 , 될βλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ 노트 MLE입니다.β^

는 어떻게 파생 되었습니까? 회상β^(λ)

β^N(β^,σ2S1) 그리고 베이지안을 추가하면

βN(0,σ2λI)

그럼 우리는 얻는다

E(β|β^)=(S+λI)1Sβ^

능선 회귀 추정치 와 동일합니다 . 따라서 여기에 제공된 James Stein의 원래 형식은 및 입니다.β^(λ)S=Ia=σ2λ

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.