k가 2 차원으로 분할 된 의사 결정 트리 의 VC 차원 은 무엇입니까 ? 모델이 CART이고 허용되는 분할이 축과 평행하다고 가정 해 봅시다.
따라서 한 번의 분할 에 대해 삼각형으로 3 개의 점을 정렬 한 다음 점의 레이블을 지정하면 완벽한 예측을 얻을 수 있습니다 (예 : 산산조각이 난 점)
그러나 2 분할 또는 일반적인 k는 어떻습니까?
k가 2 차원으로 분할 된 의사 결정 트리 의 VC 차원 은 무엇입니까 ? 모델이 CART이고 허용되는 분할이 축과 평행하다고 가정 해 봅시다.
따라서 한 번의 분할 에 대해 삼각형으로 3 개의 점을 정렬 한 다음 점의 레이블을 지정하면 완벽한 예측을 얻을 수 있습니다 (예 : 산산조각이 난 점)
그러나 2 분할 또는 일반적인 k는 어떻습니까?
답변:
나는 이것이 간단한 대답으로 된 질문인지 확실하지 않으며, 결정 트리에 대해 질문해야한다고 생각하지도 않습니다.
문의 아슬란 등의 알을. , 나무의 VC 치수 계산 (2009). 작은 나무에서 철저한 검색을 수행 한 다음 큰 나무에서 VC 치수를 추정하기위한 대략적인 재귀 수식을 제공하여이 문제를 해결합니다. 그런 다음이 공식을 가지 치기 알고리즘의 일부로 사용합니다. 귀하의 질문에 대한 폐쇄 형 답변이 있었다면, 그들이 제공했을 것이라고 확신합니다. 그들은 심지어 아주 작은 나무를 통해 길을 반복 할 필요성을 느꼈습니다.
내 2 센트 가치. 의사 결정에 대한 VC 차원에 대해 이야기하는 것이 의미가 있는지 확실하지 않습니다. 각 항목이 이진 결과 인 차원 응답을 고려하십시오 . 이것이 Aslan et al.에 의해 고려 된 상황이다. 이 표본 공간 에는 가능한 결과와 가능한 응답 패턴이 있습니다. 레벨과 잎 의 완전한 나무 를 만들면 패턴을 산산조각 낼 수 있습니다응답. 그러나 완전한 나무에 맞는 사람은 없습니다. 일반적으로 교차 검증을 사용하여 과적 합한 다음 정리합니다. 마지막에 얻는 것은 더 작고 간단한 나무이지만 가설은 여전히 큽니다. Aslan et al. 동형 나무 패밀리의 VC 치수를 추정하십시오. 각 제품군은 자체 VC 차원으로 설정된 가설입니다.
이전의 사진과 공간의 트리를 나타낸다 이 깨 4 점 : . 네 번째 항목은 "응답"입니다. Aslan et al. 과 사용하는 트리는 같은 모양을 가진 트리를 동형이며 같은 가설 세트의 일부로 간주합니다. 따라서 이러한 각 나무에는 3 개의 잎만 있지만 이러한 나무 세트는 4 점을 산산조각 낼 수 있으며이 경우 VC 치수는 4입니다. 그러나 4 개의 변수가있는 공간에서 동일한 트리가 발생할 수 있으며이 경우 VC 치수는 5가됩니다. 따라서 복잡합니다.
Aslan의 무차별 대입 솔루션은 상당히 잘 작동하는 것처럼 보이지만 가지 치기 및 교차 유효성 검사에 의존하기 때문에 사람들이 사용하는 알고리즘의 VC 차원이 실제로는 아닙니다. 가설 공간이 실제로 무엇인지 말하기는 어렵습니다. 원칙적으로 우리는 가능한 많은 수의 나무로 시작한 다음 더 합리적인 것으로 다시 정리합니다. 누군가가 두 개의 층을 넘어서는 안되는 선험적 인 선택으로 시작하더라도 여전히 나무를 잘라야 할 필요가있을 수 있습니다. 교차 검증은 샘플 오류를 직접적으로 수행하기 때문에 VC 차원이 실제로 필요하지 않습니다.
Aslan et al.에 공평하게하기 위해, 그들은 가설 공간을 특성화하기 위해 VC 차원을 사용하지 않습니다. 그들은 가지의 VC 치수를 계산하고 그 양을 사용하여 가지를자를 지 결정합니다. 각 단계에서 이들은 고려중인 브랜치의 특정 구성에 대한 VC 차원을 사용합니다. 그들은 문제의 VC 차원을 전체적으로 보지 않습니다.
변수가 연속적이고 반응이 임계 값에 도달하는 경우 의사 결정 트리는 기본적으로 여러 퍼셉트론을 생성하므로 VC 차원은 아마도 그보다 커질 것입니다 (분할 지점을 추정해야하기 때문에) . 반응이 단조롭게 연속 반응에 의존하는 경우 CART는 반응을 회귀 모델을 재생성하려고 여러 단계로 나눕니다. 이 경우에는 나무를 사용하지 않을 것입니다-아마도 감 또는 회귀입니다.