CART 모델을 작성하기위한 rpart () 루틴에서 트리를 제거하려는 복잡성 매개 변수를 지정합니다. 복잡성 매개 변수를 선택하기위한 두 가지 다른 권장 사항을 보았습니다.
가능한 최소 교차 검증 오류와 관련된 복잡성 매개 변수를 선택하십시오. 이 방법은 Quick-R 및 HSAUR에서 권장합니다 .
추정 된 교차 검증 된 오류가 여전히 가능한 최소 교차 검증 된 오류의 SE 내에있는 최대 복잡도 매개 변수를 선택하십시오. 이것은 패키지 문서에 대한 나의 해석입니다. "정리를위한 cp의 올바른 선택은 종종 이 그림 과 관련하여 평균이 수평선 아래에있는 가장 왼쪽에있는 값"이라고 말합니다 .
cp의 두 가지 선택은 내 데이터 세트에서 매우 다른 트리를 생성합니다.
첫 번째 방법은 항상 더 복잡하고 잠재적으로 과적 합 된 트리를 생성하는 것으로 보입니다. 사용할 방법을 결정할 때 고려해야 할 다른 장점, 단점, 권장 사항 등이 있습니까? 유용 할 경우 특정 모델링 문제에 대한 자세한 정보를 제공 할 수 있지만이 질문을 다른 사람들과 관련이있을 정도로 넓게 유지하려고합니다.
party
유의성 테스트를 사용 하는 패키지입니다 (일반적으로 권장하는 것은 아니지만 여기서는 관련이있는 것 같습니다). 항상 그렇듯이 최상의 테스트는 유용성과 감각입니다. 설명에 주로 관심이있는 경우 특히 그렇습니다.