내 훈련 세트에 음의 y 값이 없을 때 그라디언트 증폭 회귀 분석에서 음수 값을 예측하는 이유는 무엇입니까?


8

내가 나무의 수를 증가로 scikit 학습 의를 GradientBoostingRegressor, 나는 부정적인 값 내 훈련이나 설정을 테스트에 없다하더라도, 더 부정적인 예측을 얻을. 나는 약 10 가지 기능을 가지고 있으며, 대부분 바이너리입니다.

내가 튜닝 한 일부 매개 변수는 다음과 같습니다.

  • 나무 / 반복 횟수;
  • 학습 깊이;
  • 학습 속도.

음수 값의 백분율은 ~ 2 %에서 최대 인 것으로 보입니다. 학습 깊이 1 (스텀프)은 음수 값의 가장 큰 %를 갖는 것으로 보입니다. 이 비율은 또한 나무가 많고 학습률이 낮을수록 증가하는 것으로 보였습니다. 데이터 세트는 kaggle 놀이터 대회 중 하나에서 가져온 것입니다.

내 코드는 다음과 같습니다

from sklearn.ensemble import GradientBoostingRegressor

X_train, X_test, y_train, y_test = train_test_split(X, y)

reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01)

reg.fit(X_train, y_train)

ypred = reg.predict(X_test)

1
코드와 데이터로 재현 가능한 예가 있습니까?
Spacedman

2
어떤 놀이터 경쟁입니까?
TheAxeR

답변:


8

일반적으로 회귀 모델 (임의의 경우)은 훈련 샘플이 차지하는 영역을 넘어 임의의 방식으로 작동 할 수 있습니다. 특히, 모델링 된 함수의 선형성을 자유롭게 가정 할 수 있으므로 예를 들어 점을 사용하여 회귀 모델을 학습하는 경우 :

X     Y
10    0
20    1
30    2

음수 값 f(x) = x/10-1x<10반환 하는 모델을 작성하는 것이 합리적 입니다.

데이터 포인트의 "사이"에도 동일하게 적용되며, 함수의 가정 (특정 방법으로 모델링 할 수 있음)으로 인해 "훈련 샘플에서"값을 얻을 수 있습니다.

"음수 값에 대한 특별한 점은 무엇입니까?"라는 또 다른 방법으로 생각할 수 있습니다. 음수 값이 존재하지 않는 이유는 무엇입니까 (훈련 세트에 제공되지 않은 경우). .. 값 2131.23? 그러한 방식으로 개발되지 않는 한, 어떤 모델도 긍정적 인 것보다 "다른"부정적인 값을 취급하지 않습니다. 이것은 다른 값으로 얻을 수있는 실제 값의 자연스러운 요소입니다.


일련의 질문과 관련하여 음수 값은 "-"가 앞에 있거나 그래프에서 분명히 0 아래로 떨어지기 때문에 이상으로 식별하기가 더 쉽다고 생각합니다. "그라디언트 부스팅 회귀 분석은 이전에 볼 수 없었던 값을 예측하는 이유는 무엇입니까?" 어쩌면 당신은 그것을 확장하려고 할 수 있습니까? 그것은 확실히 당신에게서 나에게 투표를 얻을 것입니다.
josh

@lejlot-일반적으로 이것은 사실이 아닙니다. 로지스틱 또는 탄 (tanh) 활성화가있는 회귀 모델은 종종 일부 범위 내에서 출력을 보장합니다.
user48956

@ user48956 답변 상태는 "임의의 방식으로 행동 할 수있다", 당신은 물론 어떤 제약 조건을 강요 할 수 없다고 주장하지는 않는다-물론 "데이터 의존적"제약 조건이 없다는 상태에만 답하라. 내장 건설)-전문가로 수동으로 추가하는 경우 사용자에게 달려 있습니다.
lejlot

5

기억 GradientBoostingRegressor연속적으로 이전 단계의 잔차에 회귀 나무를 맞는 (제곱 오차 손실 함수를 가정). 이제 단계 i의 트리가 특정 학습 예제의 목표 변수보다 큰 값을 예측하면 해당 예제의 단계 i의 잔차는 음수가되고, 따라서 단계 i + 1의 회귀 트리는 음의 목표 값을 향하게됩니다. (단계 i의 잔차). 부스팅 알고리즘은 이러한 모든 트리를 추가하여 최종 예측을 수행하므로, 훈련 세트의 모든 목표 값이 긍정적이긴하지만, 특히 더 많이 발생한다고 언급 한 것처럼 부정적인 예측으로 끝나는 이유를 설명 할 수 있다고 생각합니다 종종 나무의 수를 늘릴 때.


이것이 정답입니다.
hahdawg 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.