나는 실제로 어떤 종류의 분류도 할 수없는 데이터 세트를 분석했습니다. 분류자를 얻을 수 있는지 확인하려면 일반적으로 다음 단계를 사용했습니다.
- 숫자 값에 대한 레이블의 상자 그림을 생성합니다.
- 클래스가 분리 가능한지 확인하기 위해 차원을 2 또는 3으로 줄이십시오. 때로는 LDA를 사용해보십시오.
- SVM 및 임의 포리스트에 맞게 조정하고 기능의 중요성을 살펴보고 기능이 의미가 있는지 확인하십시오.
- 언더 샘플링 및 오버 샘플링과 같은 클래스와 기술의 균형을 변경하여 클래스 불균형이 문제가되는지 확인하십시오.
내가 생각할 수있는 다른 많은 방법들이 있지만 시도하지는 않았습니다. 때로는 이러한 기능이 좋지 않으며 예측하려는 레이블과 관련이 없다는 것을 알고 있습니다. 그런 다음 비즈니스 직관을 사용하여 연습을 끝내고 더 나은 기능이나 완전히 다른 레이블이 필요하다는 결론을 내립니다.
내 질문은 데이터 과학자가 이러한 기능으로 분류를 수행 할 수 없다고 어떻게보고합니까? 이를보고하거나 다른 알고리즘으로 데이터를 피팅하는 통계적 방법이 있습니까? 그리고 검증 메트릭을 보는 것이 최선의 선택입니까?