축소 된


22

Pearson 상관 계수의 모집단 값에 대한 두 가지 유형의 추정기에 대해 머릿속에 약간의 혼란이있었습니다.

A. Fisher (1915) 는 2 변량 정규 모집단의 경우 경험적 이 의 음으로 바이어스 된 추정 인 것으로 나타 났지만, 바이어스는 작은 샘플 크기 ( )에 대해서만 실질적으로 상당한 양일 수 있음을 보여 줍니다. 샘플 은 보다 더 가깝다는 점에서 를 과소 평가 합니다. (후자는 제외 할 때 또는 다음에, 편견이다.) 여러 거의 불편 추정량 의 , 최고의 하나는 아마 인 제안되었다 (1958) Olkin와 프랫에게rρn<30rρ0ρ0±1rρ수정 된r :

runbiased=r[1+1r22(n3)]

B. 회귀에서 R2 가 해당 모집단 R- 제곱을 과대 평가 한다고한다 . 또는 간단한 회귀 분석을 통해 과대 평가 됩니다. 그 사실을 바탕으로, 그 말 많은 텍스트 본 적이 되어 적극적으로 상대 바이어스 에 절대 값을 의미 : 멀리에서입니다 보다 (? 사실 그 진술입니다). 텍스트는 표준 편차 매개 변수를 표본 값으로 과대 평가하는 것과 동일한 문제라고 말합니다. 를 모집단 모수에 더 가깝게 관찰하여 "조정"하는 공식이 많이 있습니다 .r2ρ2rρr0ρR2Wherry 's (1931) 는 가장 잘 알려져 있지만 가장 좋은 것은 아닙니다. 이러한 조정 된 의 루트를 shrunken 이라고합니다 .Radj2radj2 r

rshrunk=±1(1r2)n1n2

현재 대한 두 가지 다른 추정값이 있습니다. 아주 다른 : 첫 번째 팽창은 , 제 뺐다는 . 화해하는 방법? 하나를 어디에서 사용하고보고합니까?ρrr

특히, 그것은 사실 일 수있다 은 "편견"같은,하지만 단지에, 너무 "수축 된"추정은 (거의) 편향 다른 컨텍스트 - 회귀의 비대칭 상황에서. OLS 회귀 분석에서 우리는 한 쪽 (예측 자)의 값을 고정 된 것으로 간주하여 표본마다 임의의 오류없이 참석합니까? 그리고 여기에 회귀 분석에는 이변 량 정규성이 필요하지 않습니다 .


이것이 젠슨의 불평등에 근거한 것일까 궁금합니다. 그리고 이변 량 정규성은 아마도 대부분의 경우 잘못된 가정 일 것입니다.
shadowtalker

1
또한 B. 의 문제에 대한 나의 이해 는 회귀 적합도를 예측 변수를 추가하여 임의로 개선 할 수 있기 때문에 회귀 가 과대 평가된다는 것입니다. A 에서와 같은 문제처럼 들리지 않습니다 .r2
shadowtalker

실제로 가 모든 ρ 값에 대해 양의 바이어스 ρ 2 추정치 라는 것이 사실 입니까? 이변 량 정규 분포의 경우 ρ가 충분히 크지 않은 것 같습니다 . r2ρ2ρρ
NRH

추정값의 제곱에 대해 바이어스가 반대 방향으로 진행될 수 있습니까? 예를 들어, 간단한 추정기와, 그것을 표시 할 수있는 의 일부 범위에 대해 θ ? θ = ρ 이면 이것이 어려울 것이라고 생각 하지만 아마도 더 간단한 예가 해결 될 수 있습니다. E[θ^θ]<0<E[θ^2θ2]θθ=ρ
Anthony

답변:


1

상관 관계의 편향과 관련하여 : 표본 크기가 바이어스가 실질적인 의미를 갖기에 충분히 작을 때 (예를 들어, 제안한 n <30), 부정확성이 끔찍하기 때문에 편향은 가장 걱정할 것입니다.

다중 회귀 분석에서 R 2 의 치우침 과 관련하여, 동일한 크기의 독립적 인 표본에서 바이어스되지 않은 모집단 추정과 바이어스되지 않은 추정과 관련된 여러 가지 조정이 있습니다. Yin, P. & Fan, X. (2001) 참조. 다중 회귀 분석에서 R 2 수축 추정 : 분석 방법 비교. 실험 교육 저널, 69, 203-224.

현대의 회귀 방법도 물론로 회귀 계수의 수축을 해결 R 2 예와 탄성 네트 - 결과로서 K -fold 교차 검증 참조 http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .


1
이것이 실제로 질문에 대답하는지 모르겠습니다
shadowtalker

1

대답은 단순한 회귀 및 다중 회귀와 관련이 있다고 생각합니다. 하나의 IV 및 하나의 DV 로의 간단한 회귀에서, R sq는 양의 바이어스가 아니며, r이 음의 바이어스 일 때 실제로 음의 바이어스 일 수있다. 그러나 서로 연관 될 수있는 여러 IV로 다중 회귀 분석에서 R sq는 발생할 수있는 "억제"때문에 긍정적으로 편향 될 수 있습니다. 따라서 R2가 해당 모집단 R- 제곱을 과대 평가 하지만 다중 회귀 분석에서만 관찰됩니다


1
R sq is not positively biased, and in-fact may be negatively biased흥미 롭군 그것을 보여 주거나 참조 할 수 있습니까? -이변 량 정규 모집단에서 표본 Rsq 통계량이 음의 편향 추정량 일 수 있습니까?
ttnphns

당신이 틀렸다고 생각합니다. 소유권 주장을 뒷받침 할 수있는 참조 자료를 제공해 주시겠습니까?
Richard Hardy

미안하지만, 이것은 생각 운동에 대한 것이 었으므로 참조가 없습니다.
Dingus

Fischer가 이변 량 정상 상황에서 r이 rho의 부정적인 편향 추정량임을 보여준 위의 의견 A에서 벗어났습니다. 그렇다면 R sq가 음으로 바이어스된다는 것을 따르지 않습니까?
Dingus

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.