랜덤 포레스트를 사용하여 샘플링 할 기능 수


13

"통계 학습의 요소" 를 인용 한 Wikipedia 페이지 는 다음과 같이 말합니다.

일반적으로 피처 의 분류 문제의 경우 각 분할에 p each기능이 사용됩니다.p

나는 이것이 상당히 교육받은 추측이며 아마도 경험적 증거로 확인되었을 것임을 이해하지만, 제곱근을 선택 해야하는 다른 이유가 있습니까? 거기에 통계적인 현상이 있습니까?

이것이 어떻게 오차의 분산을 줄이는 데 도움이됩니까?

회귀와 분류에 대해서도 동일합니까?

답변:


16

나는 원래 논문에서 )를 사용하도록 제안 하지만 아이디어는 다음과 같습니다.log2(N+1

임의로 선택된 지형지 물의 수는 두 가지 방식으로 일반화 오류에 영향을 줄 수 있습니다. 많은 지형지 물을 선택하면 개별 나무의 강도가 증가하는 반면 지형지 물의 수를 줄이면 나무 간의 상관 관계가 낮아져 전체적으로 숲의 강도가 증가합니다.

흥미로운 점은 Random Forests (pdf) 의 저자가 분류와 회귀의 경험적 차이를 발견한다는 것입니다.

회귀와 분류의 흥미로운 차이점은 사용되는 피처 수가 증가함에 따라 상관 관계가 상당히 느리게 증가한다는 것입니다.

/

일반적으로 대한 명확한 근거는 없습니다.로그그 이외의 분류 문제의 경우, 나무들 간의 낮은 상관 관계는 개별 트리의 강도 감소를 상쇄하기에 충분할 정도로 일반화 오류를 줄일 수 있음을 보여 주었다. 특히 저자들은이 트레이드 오프가 일반화 오류를 줄일 수있는 범위가 상당히 크다는 것을 지적합니다.

중간 범위는 일반적으로 큽니다. 이 범위에서 피처 수가 증가함에 따라 상관 관계는 증가하지만 PE * (트리)는 감소하여 보상합니다.

(PE *는 일반화 오류 임)

통계 학습의 요소에서 말하는 것처럼 :

실제로 이러한 매개 변수에 가장 적합한 값은 문제에 따라 달라지며 튜닝 매개 변수로 처리해야합니다.

문제가 의존 할 수있는 한 가지는 범주 형 변수의 수입니다. 더미 변수로 인코딩 된 범주 형 변수가 많은 경우 일반적으로 모수를 늘리는 것이 좋습니다. Random Forests 논문에서 다시 한 번 :

많은 변수가 범주 형인 경우 [기능 수]가 낮 으면 상관 관계는 낮지 만 강도는 낮아집니다. [기능 수]를 약 2-3 배로 늘려야합니다나는(영형2미디엄+1) 우수한 테스트 세트 정확도를 제공하기에 충분한 강도를 얻습니다.


고마워, 그것은 매우 유용한 답변입니다. 실제로 저는 각 나무의 강도 대 숲의 강도와 관련이 있다고 생각했습니다. 그리고 실제로 회귀와 분류 사이에 그러한 차이가 있다는 것이 매우 흥미 롭습니다. 원본 용지를 연결해 주셔서 감사합니다. 많은 기술을 위해 그러한 논문을 모 으려고 노력했습니다.
Valentin Calomme '10
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.