"통계 학습의 요소" 를 인용 한 Wikipedia 페이지 는 다음과 같이 말합니다.
일반적으로 피처 의 분류 문제의 경우 ⌊ √ 각 분할에 p each기능이 사용됩니다.
나는 이것이 상당히 교육받은 추측이며 아마도 경험적 증거로 확인되었을 것임을 이해하지만, 제곱근을 선택 해야하는 다른 이유가 있습니까? 거기에 통계적인 현상이 있습니까?
이것이 어떻게 오차의 분산을 줄이는 데 도움이됩니까?
회귀와 분류에 대해서도 동일합니까?
"통계 학습의 요소" 를 인용 한 Wikipedia 페이지 는 다음과 같이 말합니다.
일반적으로 피처 의 분류 문제의 경우 ⌊ √ 각 분할에 p each기능이 사용됩니다.
나는 이것이 상당히 교육받은 추측이며 아마도 경험적 증거로 확인되었을 것임을 이해하지만, 제곱근을 선택 해야하는 다른 이유가 있습니까? 거기에 통계적인 현상이 있습니까?
이것이 어떻게 오차의 분산을 줄이는 데 도움이됩니까?
회귀와 분류에 대해서도 동일합니까?
답변:
나는 원래 논문에서 )를 사용하도록 제안 하지만 아이디어는 다음과 같습니다.
임의로 선택된 지형지 물의 수는 두 가지 방식으로 일반화 오류에 영향을 줄 수 있습니다. 많은 지형지 물을 선택하면 개별 나무의 강도가 증가하는 반면 지형지 물의 수를 줄이면 나무 간의 상관 관계가 낮아져 전체적으로 숲의 강도가 증가합니다.
흥미로운 점은 Random Forests (pdf) 의 저자가 분류와 회귀의 경험적 차이를 발견한다는 것입니다.
회귀와 분류의 흥미로운 차이점은 사용되는 피처 수가 증가함에 따라 상관 관계가 상당히 느리게 증가한다는 것입니다.
일반적으로 대한 명확한 근거는 없습니다.그 이외의 분류 문제의 경우, 나무들 간의 낮은 상관 관계는 개별 트리의 강도 감소를 상쇄하기에 충분할 정도로 일반화 오류를 줄일 수 있음을 보여 주었다. 특히 저자들은이 트레이드 오프가 일반화 오류를 줄일 수있는 범위가 상당히 크다는 것을 지적합니다.
중간 범위는 일반적으로 큽니다. 이 범위에서 피처 수가 증가함에 따라 상관 관계는 증가하지만 PE * (트리)는 감소하여 보상합니다.
(PE *는 일반화 오류 임)
통계 학습의 요소에서 말하는 것처럼 :
실제로 이러한 매개 변수에 가장 적합한 값은 문제에 따라 달라지며 튜닝 매개 변수로 처리해야합니다.
문제가 의존 할 수있는 한 가지는 범주 형 변수의 수입니다. 더미 변수로 인코딩 된 범주 형 변수가 많은 경우 일반적으로 모수를 늘리는 것이 좋습니다. Random Forests 논문에서 다시 한 번 :
많은 변수가 범주 형인 경우 [기능 수]가 낮 으면 상관 관계는 낮지 만 강도는 낮아집니다. [기능 수]를 약 2-3 배로 늘려야합니다 우수한 테스트 세트 정확도를 제공하기에 충분한 강도를 얻습니다.