의사 결정 트리의 바이어스가 낮고 분산이 높은 이유는 무엇입니까?

15

질문

나무가 얕거나 깊은 지에 달려 있습니까? 아니면 나무의 깊이 / 수준에 관계없이 이것을 말할 수 있습니까?
왜 바이어스가 낮고 분산이 높습니까? 직관적이고 수학적으로 설명하십시오

— GeorgeOfTheRF
소스

4

파티에 조금 늦었지만이 질문에 구체적인 예가있는 대답을 사용할 수 있다고 생각합니다.

이 우수한 기사 인 bias-variance-trade-off의 요약을 작성 하여 주제를 이해하는 데 도움이되었습니다.

모든 기계 학습 알고리즘에 대한 예측 오류는 세 부분으로 나눌 수 있습니다.

바이어스 오류
분산 오차
돌이킬 수없는 오류

돌이킬 수없는 오류

이름에서 알 수 있듯이 알고리즘 및 매개 변수 선택에 관계없이 수정할 수없는 오류 구성 요소입니다. 회복 불가능한 오류는 훈련 세트에서 단순히 포착 되지 않는 복잡성으로 인한 것 입니다. 이것은 학습 세트에없는 속성 일 수 있지만 결과에 관계없이 결과에 대한 매핑에 영향을줍니다.

바이어스 오류

바이어스 오류는 대상 함수에 대한 가정에 기인합니다. 대상 함수에 대한 가정 (제한)이 많을수록 도입하는 편향이 커집니다. 대상 함수에 더 많은 규칙을 적용했기 때문에 바이어스가 높은 모델은 유연성이 떨어집니다.

분산 오차

분산 오차는 다른 트레이닝 세트에 대한 목표 함수 형태의 가변성입니다. 분산 오차가 작은 모델은 훈련 세트에서 몇 개의 샘플을 교체해도 크게 변경되지 않습니다. 분산이 큰 모델은 훈련 세트를 조금만 변경해도 영향을받을 수 있습니다.

간단한 선형 회귀를 고려하십시오.

Y=b0+b1x

분명히 이것은 타겟 함수의 상당히 제한적인 정의이므로이 모델은 바이어스가 높습니다.

반면에 몇 개의 데이터 샘플을 변경하면 분산이 낮아서 타겟 함수가 수행하는 전체 매핑에 큰 변화가 발생할 가능성은 거의 없습니다. 한편, k- 최근 접 이웃과 같은 알고리즘은 분산이 높고 바이어스가 낮습니다. 다른 샘플이 KNN 의사 결정 표면에 어떤 영향을 줄 수 있는지 상상하기 쉽습니다.

일반적으로 파라 메트릭 알고리즘은 바이어스가 높고 분산이 낮으며 그 반대도 마찬가지입니다.

머신 러닝의 과제 중 하나는 바이어스 오차와 분산 오차의 올바른 균형을 찾는 것입니다.

의사 결정 트리

이제 이러한 정의가 적용되었으므로 의사 결정 트리가 편차가 적고 분산이 높은 모델의 예라는 것도 간단합니다. 트리는 목표 함수에 대한 가정을 거의하지 않지만 데이터의 분산에 매우 취약합니다.

부트 스트래핑 집계 및 임의 포리스트와 같은 앙상블 알고리즘이있어 의사 결정 트리에서 적은 비용의 편향으로 분산을 줄입니다.

— 남자
소스

2

레벨 수가 너무 많으면 (예 : 복잡한 의사 결정 트리) 모델이 과적 합하는 경향이 있습니다.

직관적으로이 방법으로 이해할 수 있습니다. 결과에 도달하기 전에 통과해야 할 의사 결정 노드가 너무 많은 경우, 즉 리프 노드에 도달하기 전에 통과 할 노드 수가 많으면 확인중인 조건이 곱해집니다. 즉, 계산은 (조건 1) && (조건 2) && (조건 3) && (조건 4) && (조건 5)가 됩니다.

모든 조건이 충족되는 경우에만 결정에 도달합니다. 보시다시피, 데이터를 지속적으로 좁히면서 훈련 세트에 매우 효과적입니다. 트리는 훈련 세트에있는 데이터에 맞게 조정됩니다.

그러나 새 데이터 포인트가 공급되면 매개 변수 중 하나가 약간 벗어나도 조건이 충족되지 않고 잘못된 분기가 수행됩니다.

— 수 제이 S 쿠마르
소스

1

복잡한 의사 결정 트리 (예 : 깊이)는 편차가 적고 분산이 높습니다. 바이어스-분산 트레이드 오프는 트리의 깊이에 따라 다릅니다.
의사 결정 트리는 분할 위치와 분할 방식에 민감합니다. 따라서 입력 변수 값을 조금만 변경해도 트리 구조가 크게 달라질 수 있습니다.

— 헬로 월드
소스

4

스케일링의 영향을받는 단일 일반 트리 알고리즘을 기억하지 못하며 변수 값을 보지 못하고 순위 만 표시합니다.

— Firebug

0

의사 결정 트리의 바이어스가 낮고 분산이 높은 이유는 무엇입니까? 나무가 얕거나 깊은 지에 달려 있습니까? 아니면 나무의 깊이 / 수준에 관계없이 이것을 말할 수 있습니까? 왜 바이어스가 낮고 분산이 높습니까? 직관적이고 수학적으로 설명하십시오.

편차 대 편차

더 많은 바이어스 = 모델의 오차가 더 단순합니다 (데이터에 매우 적합하지 않음)

더 많은 분산 = 모델의 오차가 더 복잡합니다 (데이터에 너무 적합하고 데이터의 고유 패턴 외에 노이즈를 학습 함)

모든 것이 상대적입니다

모든 것이 상대적이라고 말하면서 시작하고 싶습니다. 의사 결정 트리는 일반적으로 임의의 포리스트를 가정하여 편차가 적고 분산이 높습니다. 마찬가지로, 얕은 나무는 같은 나무보다 깊이가 높은 편향과 분산을 갖습니다.

의사 결정 트리와 임의의 포리스트의 분산 비교

이제 다림질이 완료되면 의사 결정 트리가 임의의 포리스트보다 분산 (높은 분산 및 낮은 편향)에서 왜 더 나쁜지 생각해 봅시다. 의사 결정 트리 알고리즘이 작동하는 방식은 트리에서 아래로 내려감에 따라 데이터가 반복해서 분할되므로 실제 예측은 더 적은 수의 데이터 포인트로 이루어집니다. 이에 비해 랜덤 포리스트는 여러 트리의 결정을 집계하고 랜덤 화를 통해 상관 관계가 적은 트리도 집계하므로 모델이 더 잘 일반화됩니다 (=> 다른 데이터 세트에서보다 안정적으로 수행 = 분산). 마찬가지로 임의 포리스트에 대해 더 간단한 가정을 수행하여 단일 트리에 맞는 데이터 및 기능의 하위 집합 만 참조하므로 편향이 높아집니다. BTW, 유사점,

— 바이브 하브
소스