R- 제곱의 조건부 기대


18

간단한 선형 모형을 고려하십시오.

와이y = X ' ββ + ϵ

yy=Xββ+ϵ

여기서 및 , p 2X 는 열을 포함합니다. 상수.ϵ ii . 나는 . d .N ( 0 , σ 2 ) X R n × pϵii.i.d.N(0,σ2)XRn×pp2X

내 질문은 E ( X ' X )E(XX) , ββσ 가 주어지면 E ( R 2 ) * σ에 사소한 상한에 대한 공식이 있습니까? (모델이 OLS에 의해 추정되었다고 가정).E(R2)

* 내가이 글을 쓰는, 가정이 점점 E ( R 2 )E(R2) 자체가 불가능했을 것입니다.

편집 1

Stéphane Laurent (아래 참조)에서 파생 된 솔루션을 사용하여 E ( R 2 ) 에 대한 사소한 상한을 얻을 수 있습니다 E(R2). 일부 수치 시뮬레이션 (아래)은이 한계가 실제로 매우 엄격하다는 것을 보여줍니다.

: 스테판 랑은 다음 유래 R 2 ~ B ( P - 1 , N - P , λ ) B ( P - 1 , N - P , λ는 ) 비 중심적 파라미터 비 중앙 베타 분포 λ 로를R2B(p1,np,λ)B(p1,np,λ)λ

λ = | | X ' β - E ( X ) ' β 1 n | | 2σ 2

λ=||XβE(X)β1n||2σ2

그래서

E ( R 2 ) = E ( χ (2) P - 1 ( λ )χ 2 p - 1 ( λ ) + χ 2 n p )E(χ 2 p - 1 (λ))E ( χ (2) P - 1 ( λ ) ) + E ( χ 2 N - P )

E ( R2) = E ( χ2p - 1( λ )χ2p - 1( λ ) + χ2n - p) E ( χ2p - 1( λ ) )E ( χ2p - 1( λ ) ) + E ( χ2n - p)

여기서 χ 2 k ( λ ) 는 매개 변수 λk 자유도를 가진 비 중심 χ 2 입니다 . 따라서 E ( R 2 )에 대한 사소한 상한 은χ2케이( λ )χ2λ케이E ( R2)

λ + p - 1λ + n - 1

λ + p - 1λ + n - 1

그것은이다 매우 (I 가능한 것 기대했던 것보다 훨씬 엄격한) 꽉 :

예를 들어 다음을 사용합니다.

rho<-0.75
p<-10
n<-25*p
Su<-matrix(rho,p-1,p-1)
diag(Su)<-1
su<-1
set.seed(123)
bet<-runif(p)

1000 개 이상의 시뮬레이션 에서 R 2 의 평균은 입니다 . 위의 이론 상한은 다음과 같습니다 . 바운드는 많은 R 2 값에서 똑같이 정확 해 보입니다 . 정말 놀랍습니다!R20.9608190.9609081R2

EDIT2 :

더욱 연구 한 결과,이 표시 의 상한의 근사 품질 것을 E ( R 2 ) 보다로서 얻을 λ + (P)의 증가 (과 다른 모든 동등 λ 로 증가 없음 ).E(R2)λ+pλn


R 2 n p 에만 의존하는 매개 변수를 가진 베타 분포를 가지고있습니다. 아니 ? R2np
Stéphane Laurent

1
죄송합니다. 이전의 주장은 "널 모델"(인터셉트 만)의 가설 하에서 만 사실입니다. 그렇지 않으면 R 2 의 분포는 비 중심 베타 분포와 유사해야하며 알 수없는 매개 변수를 포함하는 비 중심 매개 변수가 있어야합니다. R2
Stéphane Laurent

@ StéphaneLaurent : 감사합니다. 알려지지 않은 매개 변수와 베타의 매개 변수 사이의 관계에 대해 더 알고 싶으십니까? 나는 붙어있어 어떤 포인터라도 환영받을 것이다 ...
user603

당신은 절대적으로 대처해야합니까 E [ R 2 ] ? 아마도위한 간단한 정확한 수식가 E [ R (2) / ( 1 - R 2 ) ] . E[R2]E[R2/(1R2)]
Stéphane Laurent

1
내 대답의 표기법으로 일부 스칼라 k의 경우 R 2 / ( 1 - R 2 ) = k F 이며 비 중앙 F 분포 의 첫 번째 순간 은 간단합니다. R2/(1R2)=kFkF
Stéphane Laurent

답변:


13

Any linear model can be written Y=μ+σGY=μ+σG where GG has the standard normal distribution on RnRn and μμ is assumed to belong to a linear subspace WW of RnRn. In your case W=Im(X)W=Im(X).

Let [1]W[1]W be the one-dimensional linear subspace generated by the vector (1,1,,1)(1,1,,1). Taking U=[1]U=[1] below, the R2R2 is highly related to the classical Fisher statistic F=PZY2/(m)PWY2/(nm),

F=PZY2/(m)PWY2/(nm),
for the hypothesis test of H0:{μU}H0:{μU} where UWUW is a linear subspace, and denoting by Z=UWZ=UW the orthogonal complement of UU in WW, and denoting m=dim(W)m=dim(W) and =dim(U)=dim(U) (then m=pm=p and =1=1 in your situation).

Indeed, PZY2PWY2=R21R2

PZY2PWY2=R21R2
because the definition of R2R2 is R2=PZY2PUY2=1PWY2PUY2.
R2=PZY2PUY2=1PWY2PUY2.

Obviously PZY=PZμ+σPZGPZY=PZμ+σPZG and PWY=σPWGPWY=σPWG.

When H0:{μU}H0:{μU} is true then PZμ=0PZμ=0 and therefore F=PZG2/(m)PWG2/(nm)Fm,nm

F=PZG2/(m)PWG2/(nm)Fm,nm
has the Fisher Fm,nmFm,nm distribution. Consequently, from the classical relation between the Fisher distribution and the Beta distribution, R2B(m,nm)R2B(m,nm).

In the general situation we have to deal with PZY=PZμ+σPZGPZY=PZμ+σPZG when PZμ0PZμ0. In this general case one has PZY2σ2χ2m(λ)PZY2σ2χ2m(λ), the noncentral χ2χ2 distribution with mm degrees of freedom and noncentrality parameter λ=PZμ2σ2λ=PZμ2σ2, and then FFm,nm(λ)FFm,nm(λ) (noncentral Fisher distribution). This is the classical result used to compute power of FF-tests.

The classical relation between the Fisher distribution and the Beta distribution hold in the noncentral situation too. Finally R2R2 has the noncentral beta distribution with "shape parameters" mm and nmnm and noncentrality parameter λλ. I think the moments are available in the literature but they possibly are highly complicated.

Finally let us write down PZμPZμ. Note that PZ=PWPUPZ=PWPU. One has PUμ=ˉμ1PUμ=μ¯1 when U=[1]U=[1], and PWμ=μPWμ=μ. Hence PZμ=μˉμ1PZμ=μμ¯1 where here μ=Xβμ=Xβ for the unknown parameters vector ββ.


1
PZxPZx is the orthogoanl projection of xx on the linear subspace ZZ. And PP denotes projection on the orthogonal.
Stéphane Laurent

1
Beware of PxPx2PxPx2. I'm going to edit my post to write the formulas.
Stéphane Laurent

1
Done - do you see any simplification ?
Stéphane Laurent

1
ˉμ=1nμi
Stéphane Laurent

1
Type I, obviously: type II are distributed on (0,). Actually R2/(1R2) has the type II distribution. I have done the last corrections for today.
Stéphane Laurent
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.