의사 결정 트리 변수 (기능) 스케일링 및 변수 (기능) 정규화 (튜닝) 어떤 구현에 필요합니까?


10

많은 머신 러닝 알고리즘에서 기능 스케일링 (일명 가변 스케일링, 정규화)은 일반적인 선행 단계입니다. Wikipedia-Feature Scaling- 이 질문은 끝났 습니다

의사 결정 트리와 관련하여 특별히 두 가지 질문이 있습니다.

  1. 기능 확장이 필요한 의사 결정 트리 구현이 있습니까? 대부분의 알고리즘 분할 기준이 확장에 무관심하다는 인상을 받고 있습니다.
  2. 다음 변수를 고려하십시오. (1) 단위, (2) 시간, (3) 시간당 단위-의사 결정 트리에 입력되거나 일부 유형의 충돌이 발생하는 경우이 세 변수를 "있는 그대로"두는 것이 가장 좋습니다. "정규화 된"변수 (3)이 (1) 및 (2)와 관련이 있기 때문에? 즉, 세 가지 변수를 모두 혼합하여 던져서이 상황을 공격합니까, 아니면 일반적으로 세 가지 조합을 선택하거나 단순히 "정규화 / 표준화"기능을 사용 하시겠습니까 (3)?

답변:


6

1의 경우 일반적으로 의사 결정 트리는 일반적으로 스케일링이 필요하지 않습니다. 그러나 데이터 시각화 / 조작에 도움이되며 다른 데이터 또는 SVM과 같은 다른 방법과 성능을 비교하려는 경우 유용 할 수 있습니다.

2의 경우 이것은 튜닝 문제입니다. 단위 / 시간은 변수 상호 작용의 한 유형으로 간주 될 수 있으며 예측력이 서로 다릅니다. 그러나 이것은 실제로 데이터에 달려 있습니다. 나는 차이가 있는지 보려고하거나하지 않고 노력할 것이다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.