조정 된 R- 제곱은 고정 점수 또는 무작위 점수 모집단을 제곱 한 것입니까?

모집단 r- 제곱 는 고정 점수 또는 임의 점수를 가정하여 정의 할 수 있습니다. $\rho^2$

고정 점수 : 표본 크기와 예측 변수의 특정 값은 고정되어 있습니다. 따라서 는 예측 변수 값이 일정하게 유지 될 때 모집단 회귀 방정식으로 결과에 설명 된 분산의 비율입니다. $\rho^2_f$
랜덤 스코어 : 예측 변수의 특정 값은 분포에서 가져옵니다. 따라서 은 예측 변수 값이 예측 변수의 모집단 분포에 해당하는 모집단의 결과에 설명 된 분산 비율을 나타냅니다. $\rho^2_r$

이전 에이 구별이 추정값과 큰 차이가 있는지 $\rho^2$ 에 대해 질문했습니다 . 또한 일반적으로 바이어스되지 않은 추정값을 계산하는 방법에 $\rho^2$ 대해 물었습니다 .

샘플 크기가 커질수록 고정 점수와 임의 점수의 구분이 덜 중요하다는 것을 알 수 있습니다. 그러나 조정 $R^2$ 가 고정 점수 또는 임의 점수 를 추정하도록 설계 되었는지 확인하려고합니다 $\rho^2$ .

질문

조정 $R^2$ 는 고정 점수 또는 임의 점수 를 추정하도록 설계 $\rho^2$ 되었습니까?
조정 된 r-square의 공식이 하나 또는 다른 형태의 와 어떤 관련이 있는지에 대한 원리적인 설명이 $\rho^2$ 있습니까?

내 혼란의 배경

Yin and Fan (2001, p.206)을 읽으면 다음과 같이 씁니다.

다중 회귀 모델의 기본 가정 중 하나는 독립 변수의 값이 상수로 알려져 있으며 실험 전에 연구원이 고정한다는 것입니다. 종속 변수 만이 샘플마다 자유롭게 변할 수 있습니다. 이 회귀 모델을 고정 선형 회귀 모델 이라고합니다 .

그러나 사회 및 행동 과학에서 독립 변수의 값은 연구자에 의해 거의 고정되지 않으며 무작위 오류가 발생합니다. 따라서 종속 변수와 독립 변수가 다를 수있는 응용 프로그램에 대한 두 번째 회귀 모델이 제안되었습니다 (Binder, 1959; Park & Dudycha, 1974). 이 모델을 랜덤 모델 (또는 수정 모델)이라고합니다. 랜덤 모델과 고정 모델에서 얻은 회귀 계수의 최대 우도 추정치는 정규 가정 하에서 동일하지만 분포는 매우 다릅니다. 랜덤 모델은 너무 복잡하여 일반적으로 사용되는 고정 선형 회귀 모델 대신 더 많은 연구가 필요합니다. 따라서 고정 모델이 일반적으로 적용됩니다. 가정이 완전히 충족되지 않은 경우에도 (Claudy, 1978). 가정이 위반 된 고정 회귀 모델의 이러한 적용은 "과적 합 (overfitting)"을 야기 할 수 있는데, 이는 완벽하지 않은 표본 데이터에서 발생하는 임의의 오류가 프로세스에서 대문자로 표시되는 경향이 있기 때문입니다. 결과적으로, 이렇게 얻은 샘플 다중 상관 계수는 실제 모집단 다중 상관을 과대 평가하는 경향이 있습니다 (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982).

따라서 위의 진술에서 조정 된 가 임의의 모델에 의해 발생 된 오류를 보상하는지 또는 이것이 임의의 모델의 존재를 나타내는 논문에서 단지 경고인지 여부는 확실하지 않지만 논문은 고정 모델에 중점을 둡니다. $R^2$

참고 문헌

Yin, P., & Fan, X. (2001). 예측 회귀에 수축 : 다른 분석법의 비교. 실험 교육 저널, 69 (2), 203-224. PDF $R^2$

regression estimation r-squared

— 제로미 앵림
소스

Raju et al (1997)은

Pedhazur (1982)와 Mitchell & Klimoski (1986)는
Ns가 최소한 중간 크기 (약 50) 일 때 선택된 모델 [fixed-x 또는 random-x]에 의해 결과가 상대적으로 영향을받지 않는다고 주장했습니다 .

그럼에도 불구하고, Raju et al (1997)은 를 "고정 X 공식"및 "임의 X 공식"으로 추정 하기 위해 일부 조정 된 공식을 분류 합니다. $R^2$ $\rho^2$

고정 X 공식 : 대부분의 통계 소프트웨어에서 표준 인 에스겔 (Ezekiel, 1930)이 제안한 공식을 포함하여 몇 가지 공식이 언급되었습니다.

{\hat{ρ}}_{(이자형)}^{2} = 1 - \frac{엔 - 1}{엔 - 피 - 1} (1 - {아르 자형}^{2})

$\hat{\rho}_{(E)}^2 = 1 - \frac{N-1}{N-p-1}(1-R^2)$

따라서이 질문에 대한 짧은 대답은 일반적으로보고되고 표준 통계 소프트웨어에 내장 된 표준 조정 공식은 fixed-x 의 추정치입니다 . $R^2$ $\rho^2$

랜덤 X 공식 :

Olkin and Pratt (1958)는 공식을 제안했습니다

{\hat{ρ}}_{(영형 피)}^{2} = 1 - [\frac{엔 - 삼}{엔 - 피 - 1}] (1 - {아르 자형}^{2}) 에프 [1, 1; \frac{엔 - 피 + 1}{2}; (1 - {아르 자형}^{2})]

$\hat{ \rho}^2 _{(OP)} = 1 - \left[ {\frac{{N - 3}}{{N - p - 1}}} \right](1 - {R^2})F\left[ {1,1;\frac{{N - p + 1}}{2};(1 - {R^2})} \right]$ 여기서 F는 초기 하 함수 입니다.

Raju et al (1997)은 Pratt 's와 Herzberg 's와 같은 다양한 다른 공식이 어떻게 "예상 초 지오메트리 함수에 대한 근사치"인지 설명합니다. 예를 들어 프랫의 공식은

{\hat{ρ}}_{(피)}^{2} = 1 - \frac{(엔 - 삼) (1 - {아르 자형}^{2})}{엔 - 피 - 1} [1 + \frac{2 (1 - {아르 자형}^{2})}{엔 - 피 - 2.3}]

${\hat \rho}^2_{(P)} = 1 - \frac{{(N - 3)(1 - {R^2})}}{{N - p - 1}}\left[ {1 + \frac{{2(1 - {R^2})}}{{N - p - 2.3}}} \right]$

견적은 어떻게 다릅니 까? Leach and Hansen (2003) 보고서는 심리학에서 출판 된 다른 데이터 세트의 샘플에 대해 다른 공식의 영향을 보여주는 훌륭한 표를 제시합니다 (표 3 참조). 평균 에스겔 는 Olkin 및 Pratt 는 .2917, Pratt 는 .2910과 비교하여 .2864입니다. 작은 표본 크기와 가장 관련이있는 고정 및 랜덤 -x 공식 간의 차이에 대한 Raju et al의 초기 인용에 따르면, Leach와 Hansen의 표는 에스겔의 고정 -x 공식과 Olkin과 프랫의 랜덤 -x 공식의 차이가 가장 두드러지는 방법을 보여줍니다 작은 샘플 크기, 특히 50 미만의 샘플 크기. $R^2_{adj}$ $R^2_{adj}$ $R^2_{adj}$

참고 문헌

RK (Leach, LF, & Henson, RK) (2003). 공개 된 회귀 연구에서 조정 된 R2 효과의 사용 및 영향. 텍사스 주 샌 안토니오 사우스 웨스트 교육 연구 협회 연례 회의에서. PDF
RJ, Mitchell, TW, & Klimoski (1986). 교차 유효성 추정의 유효성 추정 응용 심리학 저널, 71 , 311-317.
Pedhazur, EJ (1982). 행동 연구에서의 다중 회귀 분석 (2 판) 뉴욕 : Holt, Rinehart 및 Winston.
Raju, NS, Bilgic, R., Edwards, JE, & Fleer, PF (1997). 방법론 검토 : 모집단 타당성 및 교차 유효성의 추정 및 예측에 동일한 가중치 사용. 응용 심리 측정, 21 (4), 291-305.

— 제로미 앵림
소스