경계 타겟 변수를 모델링하는 방법은 무엇입니까?


17

5 개의 변수가 있고 0 ~ 70 범위 내에 있어야하는 대상 변수를 예측하려고합니다.

이 정보를 사용하여 대상을 더 잘 모델링하려면 어떻게해야합니까?

답변:


21

반드시 아무것도 할 필요는 없습니다. 예측자가 잘 작동 할 수 있습니다. 하더라도 범위 가능성 (사용하고있는 범위 예측 클램핑 외부 값으로 예측 외삽 대신 ) 할 것이다 잘. 이 모델이 작동하는지 확인하기 위해 모델을 교차 검증하십시오.max(0,min(70,y^))y^

그러나 제한된 범위는 종속 변수 ( )와 독립 변수 ( x_i ) 간의 비선형 관계 가능성을 높 입니다. 이에 대한 추가 지표는 다음과 같습니다.yxi

  • y^ 가 범위의 중간에있을 때 범위의 양쪽 끝에있는 잔차의 변동과 비교하여 잔차 값의 변동이 더 큽니다 .

  • 특정 비선형 관계에 대한 이론적 이유.

  • 모델의 잘못된 사양의 증거 (일반적인 방법으로 획득).

  • 에서 차 또는 상위 용어의 의의 xi .

이러한 조건 중 하나라도 유지되는 경우 y 의 비선형 재 표현을 고려하십시오 y.

x_i 와 더 선형적인 관계를 만들기 위해 y 를 다시 표현하는 방법에는 여러 가지가 있습니다 . 예를 들어, 간격 [0,70] 에 정의 된 증가 함수 f를 "접힘"하여 y \ to f (y)-f (70-y) 를 통해 대칭 증가 함수를 만들 수 있습니다 . 경우 f는 그 인수에 접근함에 따라 임의로 크고 마이너스가 0 의 절첩 버전 F를 매핑한다 [0,70] 모든 실수로한다. 이러한 함수의 예에는 로그와 음의 힘이 포함됩니다. 로그를 사용하는 것은 @ user603에서 권장하는 "logit link"와 같습니다. 또 다른 방법은 G가yxif[0,70]yf(y)f(70y)f0f[0,70]G확률 분포의 역 CDF이고 f(y)=G(y/70) . 정규 분포를 사용하면 "프로 빗"변환이 제공됩니다.

가능성이 변환을 시도, 변환의 빠른 회귀 수행 : 변환의 가족을 악용하는 한 가지 방법은 실험하는 것입니다 에 대한 잔류, 그리고 테스트 : 그들은의 예측 값의 독립이 의심되는 (homoscedastic와 상관) . 이는 독립 변수와 선형 관계의 징후입니다. 역변환 된 예측 값 의 잔차 가 작을 경우에도 도움이됩니다 . 이는 변환이 적합도를 개선했음을 나타냅니다. 특이 치의 영향을 방지하려면 반복적으로 가중 된 최소 제곱 과 같은 강력한 회귀 방법을 사용하십시오 .x i yyxiy


1
+1 좋은 답변입니다! "y_hat이 범위의 중간에있을 때 잔차 값의 변동이 범위의 양쪽 끝에서 잔차의 변동과 비교하여 더 큰 잔차 값이 왜 비선형 성을 나타내는 지"를 외삽하거나 인용 할 수 있습니까?
앤디 맥켄지

1
이론적으로 이러한 이분산성은 비선형 성과 직접적인 관련이 없지만 실제로 분산 안정화 변환은 관계를 선형화하는 경향이 있음이 종종 관찰된다. 최소값 (0과 같은)에서 최대 값 (70과 같은)으로 지속적으로 상승하는 곡선은 해당 범위의 중간 어딘가에 최대 기울기를 가지게되며, 그 결과 잔류 편차도 더 커집니다. 그렇기 때문에 잔차가 중간에서 더 많이 나타나고 끝에서 더 적게 나타날 것으로 예상됩니다. 그렇지 않은 경우 변환되지 않은 변수 와 선형 관계를 기대할 수 있습니다 .
whuber

5

값이 0-70 범위에 속하는 이유 를 고려해야 합니다. 예를 들어, 70 개 질문에 대한 정답 수인 경우과 분산 된 이항 회귀와 같은 "성공 수"변수에 대한 모형을 고려해야합니다. 다른 이유로 인해 다른 솔루션으로 이어질 수 있습니다.


2

데이터 변환 : 에 있도록 데이터의 크기를 조정 하고 로짓 링크가있는 glm 모델을 사용 하여 데이터를 모델링하십시오.[0,1]

편집 : 벡터를 다시 스케일 할 때 (즉, 모든 요소를 ​​가장 큰 항목으로 나눕니다) 일반적으로 그렇게하기 전에 특이 치에 대한 스크린 (눈알)을 만드십시오.

최신 정보

R에 액세스 할 수 있다고 가정하면 강력한 glm 루틴으로 모델링 부분을 수행 할 것 입니다. 패키지의 참조하십시오 .glmrob()robustbase


3
여기에 권장 된대로 데이터를 고정하면 회귀에서 기울기가 바이어스됩니다.
whuber

1
또한 데이터의 실제 범위가 선험적으로 알려진 경우 샘플 Quantile을 기반으로 한 클램핑에서 즉각적인 값을 볼 수 없습니다.
추기경

@Cardinal 요점은 (예를 들어) 데이터의 99 %가 [0,1]에 있고 나머지 값은 70과 같다는 것입니다. 따라서 제안 된 접근 방식의 가능한 편견에 대한 우려에도 불구하고 @ user603이 제공하는 조언의 정신에 동의합니다.
whuber

@ whuber : 이러한 설정에서 내 성향은 이러한 형태의 클램핑이 아닌 이상치에 강한 GLM을 사용하는 것입니다. 그런 다음 "절편"및 "경사"계수를 통해 모형 적합을 조정하십시오.
추기경

@Cardinal 예, 유효한 솔루션입니다. 그러한 GLM을 사용하는 데 여전히 (대략적인) 선형성과 잔차의 독립성을 확인하기위한 진단 절차가 수반되기를 바랍니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.