랜덤 포레스트는 스케일링하거나 중심을 맞추기 위해 입력 변수가 필요합니까?


16

입력 변수의 크기가 다릅니다. 일부 변수는 소수이고 일부 변수는 수백입니다. 임의 포리스트를 사용할 때 데이터를 차원이 없게 만들려면 이러한 입력 변수를 중앙 (빼기) 또는 스케일 (표준 편차로 나눔)로 설정해야합니까?

답변:


30

아니.

랜덤 포레스트는 트리 파티셔닝 알고리즘을 기반으로합니다.

따라서, 일반 회귀 전략에서 구한 계수와 유사하지 않으며 독립 변수의 단위에 의존합니다. 대신, 기본적으로 임계 값이 주어진 결정 인 파티션 규칙 모음을 얻습니다. 이는 스케일링에 따라 바뀌지 않아야합니다. 다시 말해, 나무는 지형지 물의 등급 만 볼 수 있습니다.

기본적으로 데이터의 단조로운 변환은 (가장 일반적인 구현에서) 포리스트를 전혀 변경하지 않아야합니다.

또한 의사 결정 트리는 일반적으로 다른 알고리즘의 수렴 및 정밀도를 손상시키는 수치 불안정성에 강합니다.


0

전반적으로 Firebug에 동의하지만 예측 변수 중요도에 관심이 있다면 변수를 표준화하는 데 약간의 가치가있을 수 있습니다. 데이터를 분할 할 기회가 더 많기 때문에 RF는 변수가 큰 연속 예측 변수를 선호하는 경향이 있습니다. 그러나이 문제를 해결하는 더 좋은 방법은이 편견에보다 강력한 특정 접근 방식 (예 : 조건부 포리스트를 사용하지 않고 샘플링)을 사용하는 것입니다. 참조 https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25를


1
사이트에 오신 것을 환영합니다. 우리는 질문과 답변의 형태로 고품질 통계 정보의 영구 저장소를 구축하려고합니다. 따라서 우리는 linkrot으로 인해 링크 전용 답변에주의를 기울입니다. 링크가 종료 된 경우 링크에 정보를 요약하고 요약하여 게시 할 수 있습니까?
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.