CART에서 복잡성 매개 변수 선택


16

CART 모델을 작성하기위한 rpart () 루틴에서 트리를 제거하려는 복잡성 매개 변수를 지정합니다. 복잡성 매개 변수를 선택하기위한 두 가지 다른 권장 사항을 보았습니다.

  1. 가능한 최소 교차 검증 오류와 관련된 복잡성 매개 변수를 선택하십시오. 이 방법은 Quick-R 및 HSAUR에서 권장합니다 .

  2. 추정 된 교차 검증 된 오류가 여전히 가능한 최소 교차 검증 된 오류의 SE 내에있는 최대 복잡도 매개 변수를 선택하십시오. 이것은 패키지 문서에 대한 나의 해석입니다. "정리를위한 cp의 올바른 선택은 종종 이 그림 과 관련하여 평균이 수평선 아래에있는 가장 왼쪽에있는 값"이라고 말합니다 .

cp의 두 가지 선택은 내 데이터 세트에서 매우 다른 트리를 생성합니다.

첫 번째 방법은 항상 더 복잡하고 잠재적으로 과적 합 된 트리를 생성하는 것으로 보입니다. 사용할 방법을 결정할 때 고려해야 할 다른 장점, 단점, 권장 사항 등이 있습니까? 유용 할 경우 특정 모델링 문제에 대한 자세한 정보를 제공 할 수 있지만이 질문을 다른 사람들과 관련이있을 정도로 넓게 유지하려고합니다.


줄거리의 수평선은 무엇을 나타 냅니까?
Bogdanovist 2

가능한 최소 교차 검증 오류보다 1 SE를 초과한다고 생각합니다.
반 패스

데이터가 충분하면 나무에 대해서도 학습 및 테스트 데이터 세트로 분리 해 볼 수 있습니다. 테스트 데이터 세트가이를 잘 평가할 수 있기 때문에 주로 예측에 관심이있는 경우 특히 유용 할 수 있습니다. 또 다른 선택은 party유의성 테스트를 사용 하는 패키지입니다 (일반적으로 권장하는 것은 아니지만 여기서는 관련이있는 것 같습니다). 항상 그렇듯이 최상의 테스트는 유용성과 감각입니다. 설명에 주로 관심이있는 경우 특히 그렇습니다.
Peter Flom-Monica Monica 복원

느린 응답에 대한 사과드립니다. 명확히하기 위해 교차 검증을 사용하여 다양한 트리 크기에서 오류를 계산함으로써 이미 데이터를 반복적으로 훈련 및 테스트 세트로 효과적으로 분할했다고 생각했습니다. 이 경우 다른 교육 / 테스트 분할을 수행하는 것이 중복됩니까? 내가 당신을 오해하고 있습니까?
반 패스

열차 / 테스트의 데이터를 나누고 열차 데이터 만 사용하여 cp 매개 변수를 교차 검증하면 현실적인 예측 테스트 (차후 데이터를 사용하여 cp를 추정 할 수 없음)가 재현됩니다. 따라서 첫 번째 CV는 cp에 대한 것이며, 전체 모델에 대한 예측 오류 (예상 cp 포함)입니다.
Robert Kubrick

답변:


6

실제로 두 가지 접근 방식을 모두 보았으며 일반적으로 결과가 크게 달라지지 않을 것이라고 생각합니다.

그러나 Hastie 등 은 통계 학습요소 에서 "1 표준 오류"규칙을 권장하며 , 나는 그들의 판단을 신뢰하는 경향이있다 (제 7.10 절, 244 페이지). 관련 인용문은 다음과 같습니다.

종종 "일 표준 오류"규칙이 교차 검증과 함께 사용되는데, 여기서 우리는 오류가 최고 모델의 오류보다 하나 이상의 표준 오류가 아닌 가장 가치있는 모델을 선택합니다. "

왜 하나의 표준 오류 규칙을 따르는 지에 대한 직감이 맞습니다. 데이터에 맞는 모델을 선택하지 않기 위해 그렇게 할 것입니다.


1

먼저 인수를 사용하여 시작해야 minsplit=0하고 cp=0다음 기능을 사용 (복잡성 매개 변수) plotcp(T.max)printcp(T.max)의 값을 선택 cp최소 상대 오차에 대응하고 함수에 의해 나무 가지 치기prune.rpart(T.max, cp=....)

이렇게하면 지나치게 낙관적 인 경향이 있으므로 최적의 분류 트리를 얻을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.