최근의 Kaggle 경쟁을 위해, 나는 (수동으로) 내 훈련 세트에 대해 10 개의 추가 기능을 정의했으며,이 기능은 임의의 숲 분류기를 훈련시키는 데 사용됩니다. 새로운 기능으로 데이터 세트에서 PCA를 실행하여 서로 비교하는 방법을 확인하기로 결정했습니다. 분산의 ~ 98 %가 첫 번째 성분 (첫 번째 고유 벡터)에 의해 전달됨을 발견했습니다. 그런 다음 분류기를 여러 번 훈련하여 한 번에 하나의 기능을 추가하고 교차 유효성 검사 및 RMS 오류를 사용하여 분류 품질을 비교했습니다. 나는 각각의 추가 기능으로 분류가 개선되었으며 최종 결과 (모든 10 개의 새로운 기능 포함)가 첫 번째 실행 (예 : 2 기능)보다 훨씬 우수하다는 것을 알았습니다.
PCA가 분산의 ~ 98 %가 내 데이터 세트의 첫 번째 구성 요소에 있다고 주장한 경우 분류의 품질이 왜 그렇게 많이 향상 되었습니까?
다른 분류 자에게도 해당됩니까? RF는 여러 코어에 걸쳐 확장되므로 SVM보다 학습 속도가 훨씬 빠릅니다.
데이터 세트를 "PCA"공간으로 변환하고 변환 된 공간에서 분류기를 실행하면 어떻게됩니까? 결과가 어떻게 바뀔까요?