Friedman이 제안한 그라디언트 트리 부스팅은 J
터미널 노드 (= 잎) 가있는 의사 결정 트리 를 기본 학습자로 사용합니다. 정확히 J
노드를 가진 나무를 키우는 방법에는 여러 가지가 있습니다 .
J
그래디언트 트리 부스팅을 위해 정확히 터미널 노드를 사용 하여 트리를 키우는 방법이 확립 되어 있습니까?
R gbm
패키지 의 트리 성장 절차 를 살펴 보았고 깊이 우선 방식으로 트리를 확장하고 오류 개선에 따라 휴리스틱을 사용하여 왼쪽 또는 오른쪽 자식 노드를 확장할지 여부를 선택합니다. 맞습니까?
2
gbm은 CART를 사용하여 80 년대의 잘 알려진 알고리즘 인 트리를 만듭니다. 휴리스틱을 지니 불순물이라고하며 2 차 손실이있는 회귀에 대한 표준 선택입니다.
Afaik gini 불순물은 분류 문제에 사용됩니다. 그럼에도 불구하고 문제는 나무의 크기와 관련이 있습니다.
—
피터 Prettenhofer
한 번에 분기를 추가합니다. 다음 번의 각 스플릿이 브랜치뿐만 아니라 트리의 나머지 스플릿 후보 중 최고인 것이 놀랍습니다. 데이터가 'J'에 비해 너무 작은 경우와 같이 데이터가 정확한 숫자를 지원하지 않는 경우가 있습니다.
—
EngrStudent
@EngrStudent가 말했듯이 정확한 수의 노드를 강요 할 수 없습니다. 그러나 노드 수에 대한 상한을 약간 제어 할 수 있습니다. 노드 당 최소 오브젝트 수를 제어
—
G5W
gbm
하는 매개 변수 n.minobsinnode
가 있습니다. 물론, 다음 노드의 수 또는 NumberOfPoints 같음보다 작 / n.minobsinnode입니다
'J'잎을 찾고 있다면 나무를 완전히 만든 다음 J 개 이상의 잎이 있다고 가정하면 J로 정리합니다. 그러면 'J'노드가 생겨서 가장 많이 나타납니다. 유익한 분할-그것이 가장 건강한 CART 모델이 될 것입니다. 분할이 충분하지 않은 경우 도메인 내에서 무작위로 분할하여 'J'를 얻을 수는 있지만 허구적이고 다소 사소한 것입니다. 리프 내에서 값 분포를보고 CDF 중심의 근사를 사용하지만 이는 리프 당 평균 모델에서 벗어납니다.
—
EngrStudent