회귀 결과에 예기치 않은 상한이 있습니다.


9

균형 점수를 예측하고 여러 가지 회귀 분석 방법을 시도했습니다. 내가 주목 한 것은 예측 값에 일종의 상한이있는 것 같습니다. 즉, 실제 균형은 이지만 내 예측은 약 입니다. 다음 그림은 실제 대 예측 잔액을 보여줍니다 (선형 회귀로 예측 됨).[0.0,1.0)0.8

실제 대 예측

다음은 동일한 데이터에 대한 두 가지 분포도입니다.

초기 배포

예측 변수가 매우 왜곡되었으므로 (전력 법칙 분포가있는 사용자 데이터) Box-Cox 변환을 적용하여 결과를 다음과 같이 변경했습니다.

Box-Cox 변환 후 실제 대 예측

Box-Cox 변환 후 분포

예측 분포를 변경하더라도 여전히 상한이 있습니다. 그래서 내 질문은 :

  • 예측 결과에서 그러한 상한에 대한 가능한 이유는 무엇입니까?
  • 실제 값의 분포와 일치하도록 예측을 수정하려면 어떻게해야합니까?

보너스 : Box-Cox 변환 후 분포가 변환 된 예측 변수의 분포를 따르는 것처럼 보이므로 직접 연결될 수 있습니까? 그렇다면 분포를 실제 값에 맞추기 위해 적용 할 수있는 변환이 있습니까?

편집 : 5 예측 변수와 함께 간단한 선형 회귀를 사용했습니다.


1
나는 이것이 어디로 가는지 정말로 관심이 있습니다. 이것은 단지 선형 회귀 모델입니까? 예측자는 몇 명입니까?
shadowtalker

1
참고로 : 결과 변수가 0과 1에 의해 제한되기 때문에 간단한 선형 회귀 모델은 물론 유효하지 않은 범위를 벗어난 값을 예측할 수 있습니다. 이 경우 고려해야 할 다른 옵션 이 있습니다.
COOLSerdash

1
경계 입력은 선형 모델에 대한 경계 출력을 의미합니다. (변환 된) 예측 변수의 범위는 무엇입니까? 모형 적합 요약표를 보여줄 수 있습니까?
추기경

2
Mennny : 당신이 정말로 필요로하는 것은 계수 값과 예측 변수의 경계입니다. 부호를 하나씩 일치시켜 최소 및 최대 예측을 빠르게 결정할 수 있습니다 (예측자가 항상 암시 적 또는 명시 적으로 경계를 만족한다고 가정).
추기경

1
@ cardinal : 나는 예측 변수의 경계를 확인하고 당신의 가정을 확인할 수있었습니다. 주어진 (변형되지 않은) 예측 변수에서 최대 예측값은 ~ 0.79입니다. 의견을 수락 할 수 있도록 답변을 "복사 / 붙여 넣기"할 수 있습니까? 어떻게 진행할 수 있습니까? 이것이 내 예측 변수와 결과 사이에 선형 관계가 없음을 보여줍니다.
Mennny

답변:


1

귀하의 dep var는 0과 1 사이에 있으므로 OLS가 완전히 적합하지 않습니다. 예를 들어 베타 회귀를 제안하고 다른 방법이있을 수 있습니다. 그러나 두 번째로 박스-콕스 변환 후 예측이 제한적이라고 말하지만 그래프에는 표시되지 않습니다.


0

0/1의 범위를 따르는 회귀를 사용하는 데 많은 초점을 맞추고 있으며 이것이 합리적이고 중요합니다! 왜 LPM이 0.8보다 큰 결과를 예측하지 못하는지에 대한 구체적인 질문은 저에게 약간 다른 질문으로 나옵니다. .

두 경우 모두 잔차에 주목할만한 패턴이 있습니다. 즉, 선형 모형이 분포의 상단에 잘 맞지 않습니다. 이것은 올바른 모델에 대해 비선형적인 것이 있음을 의미합니다.

프로 빗, 로짓 및 베타 회귀와 같이 데이터의 0/1 경계를 고려하는 솔루션. 이 경계는 매우 중요하며 비교적 분포가 1에 가까우므로 해당 주제에 대한 답변이 많을 경우 작업이 엄격해야합니다.

그러나 일반적으로 LPM이 0/1 한계를 초과한다는 문제가 있습니다. 여기서는 그렇지 않습니다! 0/1 경계에 관심이없고 (x'x) ^-1 (x'y)에 적합 할 수있는 해를 적극적으로 원한다면 모형이 굳게 선형 적이 지 않을 수 있습니다. x ^ 2의 함수, 독립 변수의 곱, 또는 독립 변수의 로그로 모형을 피팅하면 적합도를 높이고 모형의 설명력을 향상시켜 0.8보다 큰 값을 추정 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.