rpart ()에서 분할 수를 선택하는 방법은 무엇입니까?


9

내가 사용하고 rpart.control위해 minsplit=2, 그리고에서 다음과 같은 결과를 받았습니다 rpart()기능을. 데이터가 과적 합되지 않도록하려면 분할 3 또는 분할 7을 사용해야합니까? 스플릿 7을 사용해야합니까? 알려주세요.

트리 구성에 실제로 사용되는 변수 :

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

    CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

1
이전 Q에 게시 한 후속 조치에서이 답변에 답변했습니다. 나중에 참조 하기 위해 후속 조치를 위해 Q를 편집해서는 안된다고 언급했습니다 !
개빈 심슨

1
앞으로 관련 질문을 검색하지 않으려면 다음은 이전 Q : stats.stackexchange.com/questions/13446/…에 대한 링크 입니다.
chl

답변:


10

규칙은 최상의 트리의 하나의 표준 오류 내에서 최상의 트리 (가장 낮은 교차 검증 상대 오차) 또는 가장 작은 (가장 간단한) 트리를 사용하는 것입니다. 가장 좋은 나무는 열 여덟 (7 분할)에 있지만, 행 7 (6 분할)의 나무 (효과적으로 같은 일을 xerror(작은)에 비해 내에있는 행 7 = 0.21761 트리의 xerror가장 좋은 트리 플러스 하나 개의 표준의 error,, xstd(0.21076 + 0.042196) = 0.252956) 더 간단하므로 1 표준 오류 규칙이이를 선택합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.