랜덤 포레스트에서 "노드 크기"란 무엇입니까?

노드 크기의 의미를 정확히 이해하지 못합니다. 의사 결정 노드가 무엇인지 알고 있지만 노드 크기는 무엇인지 알지 못합니다.

machine-learning random-forest bagging

— 늑대
소스

의사 결정 트리는 학습 세트의 재귀 파티션으로 작동합니다. 의사 결정 트리의 모든 노드 는 세트의 데이터 포인트 세트와 연관됩니다 . $t$ $n_t$

n_t는 각 노드의 크기입니다

당신은 매개 변수를 찾을 수 있습니다 nodesize어떤 임의의 숲 패키지, 예를 R :이 인 최소 노드의 크기 , 최소 노드 크기 위의 예에서는이 매개 변수는 암시 적 나무의 깊이를 설정 10입니다.

nodesize R 랜덤 포레스트 패키지에서

터미널 노드의 최소 크기 이 수를 더 크게 설정하면 더 작은 나무가 자라므로 시간이 덜 걸립니다. 분류 (1) 및 회귀 (5)의 기본값은 다릅니다.

다른 패키지에서는 매개 변수를 직접 찾을 수 있습니다 ( depth예 : WEKA) .

-depth WEKA 랜덤 포레스트 패키지에서

나무의 최대 깊이는 0이며 무제한입니다. (기본 0)

— 시몬
소스

'레코드'란 무엇입니까? 데이터 포인트를 의미합니까? 각 노드가 레코드 세트와 연관되는 이유는 무엇입니까? 나는 임의의 숲을 잘 이해하지만 전문 용어가 무엇을 의미하는지 모르겠습니다.

— wolfsatthedoor 2016 년

예, 데이터 포인트를 의미했습니다. 일반적으로 데이터 포인트를 레코드, 인스턴스 또는 예제라고 할 수 있습니다.

— Simone

따라서 나무에 과적 합을 피하기 위해 최소한의 노드 크기 규칙이 있습니까? 나는 그것이 훈련 데이터의 크기에 달려 있다고 상상할 것입니다. 그래서 아마도 데이터 세트 크기의 특정 비율일까요?

— Seanosapien

임의의 숲에서는 나무가 완전히 자랍니다. 노드 크기는 1입니다. 많은 나무가 자라는 것을 피하십시오. 의사 결정 트리에서는 더 까다 롭습니다. 나무가 완전히 자라지 않으므로 과적 합을 피하려면 가지 치기를 수행해야합니다.

— Simone

winnowing은 트리를 단순화하고 과적 합을 피하기위한 일종의 기능 선택 인 것 같습니다. 하나의 나무를 잘라내는 것이 항상 유익하다고 생각합니다. 대신, 아는 것은 때때로 정확도를 떨어 뜨릴 수 있지만 트리를 단순화합니다.

— Simone

노드 크기가 "가방 내"샘플링인지 또는 "가방 내"오류인지 여부는 명확하지 않습니다. "가방 밖"샘플링에있는 경우 약간 더 제한적입니다.

— 다크 나이트
소스