R에서 GBM의 n.minobsinnode 매개 변수의 역할 [닫힘]


21

GBM 패키지에서 n.minobsinnode 매개 변수의 의미 를 알고 싶었습니다 . 매뉴얼을 읽었지만 그 기능이 명확하지 않습니다. 결과를 개선하기 위해 그 숫자가 작거나 커야합니까?


9
"이 질문은 미래의 방문자를 도울 것 같지 않습니다". 나는 미래의 방문자이며 도움이되었다고 생각했습니다.
Flounderer

1
나는 또한 도움이되었다고 생각했다.
oaxacamatt

답변:


25

GBM 알고리즘의 각 단계에서 새로운 의사 결정 트리가 구성됩니다. 의사 결정 트리를 성장시킬 때의 질문은 '중지 할 때'입니다. 가장 멀리 갈 수있는 것은 각 터미널 노드에 관측치가 하나만있을 때까지 각 노드를 분할하는 것입니다. 이것은 n.minobsinnode = 1에 해당합니다. 또는 특정 수의 관측치가 각 노드에있을 때 노드 분할이 중단 될 수 있습니다. R GBM 패키지의 기본값은 10입니다.

사용하기 가장 좋은 가치는 무엇입니까? 데이터 세트와 분류 또는 회귀 중 여부에 따라 다릅니다. 각 트리의 예측은 터미널 노드에있는 모든 입력의 종속 변수의 평균으로 취해 지므로 1 값은 아마도 회귀에 적합하지 않지만 분류에 적합 할 수 있습니다.

값이 클수록 트리가 작을수록 알고리즘을 더 빠르게 실행하고 메모리를 적게 사용하므로 고려할 수 있습니다.

일반적으로 결과는이 매개 변수에 매우 민감하지 않으며 GBM 성능의 확률 적 특성을 고려할 때 실제로 '가장 좋은'값을 정확히 결정하기가 어려울 수 있습니다. 상호 작용 깊이, 수축 및 나무 수는 일반적으로 훨씬 더 중요합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.