트리 추정기는 항상 편향되어 있습니까?


9

Decision Trees에 대해 숙제를하고 있는데, 대답해야 할 질문 중 하나는 "견적자가 나무로 만들어지는 이유는 무엇이며 배깅은 어떻게 분산을 줄이는 데 도움이됩니까?"입니다.

이제 과적 응 된 모델은 모든 데이터 요소를 맞추려고하기 때문에 바이어스가 매우 낮은 경향이 있음을 알고 있습니다. 그리고 파이썬에서 일부 데이터 세트에 트리를 장착하는 스크립트가있었습니다 (단일 기능 포함. 아래 그림과 같은 약간의 포인트가있는 사인파 일뿐입니다). 그래서, "데이터를 과도하게 적합하게하면 바이어스를 0으로 할 수 있습니까?" 그리고, 깊이가 10000이더라도 커브가지나 가지 않는 점이 여전히 남아 있습니다.

여기에 이미지 설명을 입력하십시오

이유를 찾으려고했지만 실제로 설명을 찾을 수 없었습니다. 내가있을 수 있음을 추측하고있어 일부 완벽하게 모든 지점을 통해 갈 것이다 나무, 그리고 내가 가진 사람은 "불운"이라고. 또는 다른 데이터 세트로 인해 편향되지 않은 결과를 얻었을 수도 있습니다 (완벽한 정현파입니까?). 심지어 시작 부분의 절단으로 인해 추가 절단이 모든 점을 완전히 분리 할 수 ​​없었을 수도 있습니다.

따라서이 데이터 세트를 고려하면 (다른 사람들과 다를 수 있기 때문에) 내 질문은 : 바이어스가 0이되는 지점에 나무를 과도하게 맞추는 것이 가능합니까, 아니면 실제로는 약간의 바이어스가있을 수 있습니까? 작은? 그리고 항상 약간의 편견이 있다면 왜 그런 일이 발생합니까?

추신 : 나는 그것이 관련이 있는지 모르겠지만 , 모델을 데이터에 맞추기 위해 DecisionTreeRegressorfrom sklearn을 사용했습니다 .


3
우리 사이트에 오신 것을 환영합니다! 귀하의 질문에 "사전 감사"를 추가 할 필요는 없습니다. 감사의 말을 전할 수있는 가장 좋은 방법은 답변을 얻을 때까지 기다렸다가 가장 큰 도움이되는 것 (녹색 틱)을 수락하는 것입니다! 아직 그렇게하지 않았다면 이 사이트가 어떻게 작동하는지 보기 위해 둘러보기 를 살펴보십시오.
실버 피쉬

3
함수 y = 0을 고려하고 y = f (x)를 맞추려고합니다. 여기서 x는 임의의 값을 갖습니다. 이 경우에 의사 결정 트리 추정기가 편향되어 있습니까?
jbowman

답변:


10

의사 결정 트리 모델은 다른 학습 모델보다 항상 편견이 아닙니다 .

설명하기 위해 두 가지 예를 살펴 보겠습니다. 하자 에 균일 랜덤 변수 일 . 가능한 통계 과정은 다음과 같습니다.X[0,1]

진실 1 : 주어진 지표 X의 함수 및 잡음이다 :YX

YXI<.5(X)+N(0,1)

진실 2 : 주어진 선형의 함수 잡음 플러스 :YXX

YXX+N(0,1)

우리는 모두 상황에서 의사 결정 트리를 맞는 경우, 모델은 해제 바이어스 첫 번째 상황에 있지만 되고 두 번째에 편향. 하나의 분할 이진 트리 첫 번째 상황에서 실제 기본 데이터 모델을 복구 할 수 있기 때문 입니다. 두 번째로, 나무가 할 수있는 최선의 방법은 더 미세한 간격으로 스테핑을함으로써 선형 함수에 근접하는 것입니다. 유한 깊이의 나무는 너무 가까울 수 있습니다.

두 상황 모두에 선형 회귀를 적용 하면 첫 번째 상황에서는 모형 편중되지만 두 번째 상황에서는 편향되지 않습니다.

따라서 모델이 편향되어 있는지 확인하려면 실제 기본 데이터 메커니즘이 무엇인지 알아야합니다. 실제 상황에서는이 사실을 절대 알 수 없으므로 실제 모델이 편향되어 있는지 여부를 실제로 말할 수는 없습니다. 때때로, 우리는 우리가 오랫동안 완전히 옳다고 생각하지만, 더 깊은 이해로 편견이 생깁니다 (아인슈타인 중력에 대한 뉴턴 식 중력은 적어도 묵시적인 예입니다).

어떤 의미에서, 우리는 (일부 예외를 제외하고) 대부분의 실제 프로세스가 알 수 없을 것으로 기대합니다. 진실에 대한 합리적으로 충분히 근사치는 모든 모델이 편향되어 있다는 것입니다. 복잡한 통계 과정을 모델링하는 데있어 본질적인 헛수고에 대한 심오한 철학적 논의를 요구하는 것은 의심의 여지가 있지만 생각하는 것은 재미 있습니다.


0

데이터의 일부 포인트가 여전히 예측되지 않는다는 사실은 돌이킬 수없는 오류라고 할 수 있습니다. 이론은 머신 러닝에서 환원 가능하고 돌이킬 수없는 오류가 있다는 것입니다. 돌이킬 수없는 오류의 아이디어는 모델의 우수성에 관계없이 완벽하지는 않다는 것입니다. 몇 가지 이유 때문입니다. 하나는 훈련 기능이 아무리 강력하더라도 훈련 데이터에 포함되지 않은 결과에 영향을주는 숨겨진 기능이 항상 있다는 것입니다. 또 다른 이유는 거의 모든 데이터에 특이 치가있을 수 있기 때문입니다. 모델을 가능한 한 이상치에 견고하게 만들 수는 있지만 아무리 노력해도 이상 치가 항상 존재합니다. (이것은 모델을 만들 때 특이 치에 대해 생각해서는 안된다는 것을 의미하지는 않습니다). 마지막 세부 사항은

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.