랜덤 포레스트는 예측 편견을 나타 냅니까?


12

왜 또는 왜 그렇지 않을지에 대한 추론이 있지만 이것은 간단한 질문이라고 생각합니다. 내가 묻는 이유는 내가 최근에 자체 RF 구현을 작성했으며 그것이 잘 수행하더라도 예상 한 것만 큼 성능이 좋지 않다는 것입니다 ( Kaggle 사진 품질 예측 경쟁 데이터 세트, 우승 점수 및 일부 어떤 기술이 사용되었는지에 관한 후속 정보).

이러한 상황에서 가장 먼저하는 일은 내 모델의 플롯 예측 오류이므로 주어진 각 예측 값에 대해 올바른 목표 값에서 떨어진 평균 바이어스 (또는 편차)를 결정합니다. 내 RF의 경우이 줄거리를 얻었습니다.

정확한 목표 값으로부터의 예측값 대 바이어스

이것이 RF에 대해 일반적으로 관찰되는 바이어스 패턴인지 궁금합니다 (그렇지 않으면 데이터 세트 및 / 또는 구현에 특정한 것일 수 있습니다). 물론이 그림을 사용하여 편향을 보정하기 위해 예측을 개선 할 수 있지만 RF 모델 자체에 더 근본적인 오류가 있거나 해결해야하는 단점이 있는지 궁금합니다. 감사합니다.

== 부록 ==

내 초기 조사는이 블로그 항목 인 Random Forest Bias-Update에 있습니다.


2
데이터의 기능 일 수 있습니다. 동일한 데이터 세트에서 다른 RF 구현을 실행하여이 효과가 재현되는지 확인 했습니까?

답변:


4

(나는 전문가와는 거리가 멀다 . 이것들은 다르지만 유사하지 않은 문제를 다루는 주니어 통계학 자의 생각이다. 내 대답은 상황에 맞지 않을 수있다.)

새로운 샘플을 예측 하고 훨씬 더 큰 트레이닝 세트에 액세스 할 수있는 오라클 을 고려할 때 "가장 우수"하고 가장 정직한 예측은 "이것이 레드 클래스가 아닌 레드 클래스에 속할 확률을 60 %로 예측하는 것입니다." 블루 클래스 ".

좀 더 구체적인 예를 들어 보겠습니다. 매우 큰 트레이닝 세트에는 새로운 샘플과 매우 유사한 많은 샘플 세트가 있다고 상상해보십시오. 이 중 60 %는 파란색이고 40 %는 빨간색입니다. 그리고 블루스와 레드를 구별 할 수있는 것은없는 것 같습니다. 그러한 경우에, 60 % / 40 %가 정상인이 할 수있는 유일한 예측이라는 것이 명백합니다.

물론 우리에게는 그러한 오라클이 없으며 대신 많은 나무가 있습니다. 간단한 의사 결정 트리는 이러한 60 % / 40 % 예측을 수행 할 수 없으므로 각 트리는 불연속 예측을 수행합니다 (빨간색 또는 파란색, 그 사이에 아무것도 없음). 이 새로운 샘플이 의사 결정 화면의 빨간색쪽에 떨어지면 거의 모든 나무가 파란색이 아니라 빨간색을 예측한다는 것을 알 수 있습니다. 각각의 나무는 그것보다 더 확실한 척하고 편향된 예측으로 각인을 시작합니다.

문제는 단일 트리의 결정을 잘못 해석하는 경향이 있다는 것입니다. 단일 트리가 노드를 Red 클래스에 넣을 때 트리 에서 100 % / 0 % 예측으로 해석 해서는 안됩니다 . (나는 그것이 우리가 아마도 그것이 나쁜 예측 일 것이라는 것을 '알고있다'고 말하는 것이 아닙니다. 나는 더 강한 것을 말하고 있습니다. 이 문제를 해결하는 방법을 간결하게 확장 할 수는 없습니다. 그러나 단일 트리가 불확실성에 대해 더 정직하도록 격려하기 위해 트리 내에서 '퍼지'스플릿을 구성하는 방법에 대한 통계 영역에서 아이디어를 빌릴 수 있습니다. 그런 다음 나무 숲의 예측을 의미있게 평균화 할 수 있어야합니다.

나는 이것이 조금 도움이되기를 바랍니다. 그렇지 않다면, 나는 모든 응답으로부터 배우기를 바랍니다.


퍼지 스플릿은 극단적 인 RF의 정신을 가지고 있습니다. 나는 당신의 설명이 나에게 이해되는 것처럼 이것을 시도 할 것입니다. 감사.
redcalx

[임의의 숲-바이어스 문제에 대한 생각] ( the-locster.livejournal.com/134241.html ) "그 당시의 핵심은 (분할 임계 값의) 불균일 한 무작위 화를 사용하는 것입니다. 결합 될 때 분리 점은 y = f (x)를 재현하고 RF의 DT 수가 무한대에 가까워 질 때 y = f (x)의 완벽한 표현에 접근합니다. "
redcalx

60 / 40 % 예측이 회귀 트리에서 처리되지 않습니까? 신뢰도는 잎의 칸막이 (훈련 세트에 대한)의 수업 비율입니다. 아마도 이것은 통계적 힘을 다루기 위해 확장 될 수도 있고 확장되었을 수도 있습니다
Alter

3

예. 대부분의 나무는 꼬리에 편견이 있습니다. 보다:

연속 변수를 예측할 때 의사 결정 트리 분할을 어떻게 구현해야합니까?

"나무의 잠재적 인 문제는 꼬리에 잘 맞지 않는다는 것입니다. 훈련 세트의 낮은 범위를 캡처하는 터미널 노드를 생각해보십시오. 훈련 세트 포인트의 평균을 사용하여 예측할 수 있습니다. 그 결과는 평균이기 때문에 "


나는 그 의견이 임의의 숲에 적용된다고 생각하지 않는다
Zach

응답 변수가 연속적 일 때 임의 포리스트의 참조 구현이 노드에서 ~ 5 개의 관측으로 중지된다고 생각합니다. 분할 변수가 연속적이라면 여전히 소량의 바이어스가 발생합니다. LOESS가지지의 가장자리에서 중심 이동 평균보다 더 나은 이유와 비슷합니다.
Shea Parkes
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.