모집단 r- 제곱 는 고정 점수 또는 임의 점수를 가정하여 정의 할 수 있습니다.
고정 점수 : 표본 크기와 예측 변수의 특정 값은 고정되어 있습니다. 따라서 는 예측 변수 값이 일정하게 유지 될 때 모집단 회귀 방정식으로 결과에 설명 된 분산의 비율입니다.
랜덤 스코어 : 예측 변수의 특정 값은 분포에서 가져옵니다. 따라서 은 예측 변수 값이 예측 변수의 모집단 분포에 해당하는 모집단의 결과에 설명 된 분산 비율을 나타냅니다.
이전 에이 구별이 \ rho ^ 2 추정값과 큰 차이가 있는지 에 대해 질문했습니다 . 또한 일반적으로 바이어스되지 않은 \ rho ^ 2 추정값을 계산하는 방법에 대해 물었습니다 .
샘플 크기가 커질수록 고정 점수와 임의 점수의 구분이 덜 중요하다는 것을 알 수 있습니다. 그러나 조정 가 고정 점수 또는 임의 점수 \ rho ^ 2 를 추정하도록 설계 되었는지 확인하려고합니다 .
질문
- 조정 는 고정 점수 또는 임의 점수 \ rho ^ 2 를 추정하도록 설계 되었습니까?
- 조정 된 r-square의 공식이 하나 또는 다른 형태의 \ rho ^ 2 와 어떤 관련이 있는지에 대한 원리적인 설명이 있습니까?
내 혼란의 배경
Yin and Fan (2001, p.206)을 읽으면 다음과 같이 씁니다.
다중 회귀 모델의 기본 가정 중 하나는 독립 변수의 값이 상수로 알려져 있으며 실험 전에 연구원이 고정한다는 것입니다. 종속 변수 만이 샘플마다 자유롭게 변할 수 있습니다. 이 회귀 모델을 고정 선형 회귀 모델 이라고합니다 .
그러나 사회 및 행동 과학에서 독립 변수의 값은 연구자에 의해 거의 고정되지 않으며 무작위 오류가 발생합니다. 따라서 종속 변수와 독립 변수가 다를 수있는 응용 프로그램에 대한 두 번째 회귀 모델이 제안되었습니다 (Binder, 1959; Park & Dudycha, 1974). 이 모델을 랜덤 모델 (또는 수정 모델)이라고합니다. 랜덤 모델과 고정 모델에서 얻은 회귀 계수의 최대 우도 추정치는 정규 가정 하에서 동일하지만 분포는 매우 다릅니다. 랜덤 모델은 너무 복잡하여 일반적으로 사용되는 고정 선형 회귀 모델 대신 더 많은 연구가 필요합니다. 따라서 고정 모델이 일반적으로 적용됩니다. 가정이 완전히 충족되지 않은 경우에도 (Claudy, 1978). 가정이 위반 된 고정 회귀 모델의 이러한 적용은 "과적 합 (overfitting)"을 야기 할 수 있는데, 이는 완벽하지 않은 표본 데이터에서 발생하는 임의의 오류가 프로세스에서 대문자로 표시되는 경향이 있기 때문입니다. 결과적으로, 이렇게 얻은 샘플 다중 상관 계수는 실제 모집단 다중 상관을 과대 평가하는 경향이 있습니다 (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982).
따라서 위의 진술에서 조정 된 가 임의의 모델에 의해 발생 된 오류를 보상하는지 또는 이것이 임의의 모델의 존재를 나타내는 논문에서 단지 경고인지 여부는 확실하지 않지만 논문은 고정 모델에 중점을 둡니다.
참고 문헌
- Yin, P., & Fan, X. (2001). 예측 회귀에 수축 : 다른 분석법의 비교. 실험 교육 저널, 69 (2), 203-224. PDF