일반적인 문제는 ML이 데이터의 품질이 좋지 않다는 것입니다. 기능 값의 오류, 잘못 분류 된 인스턴스 등
이 문제를 해결하는 한 가지 방법은 수동으로 데이터를 확인하고 확인하는 것이지만 다른 기술이 있습니까? (나는 내기했다!)
어느 쪽이 더 좋고 왜?
일반적인 문제는 ML이 데이터의 품질이 좋지 않다는 것입니다. 기능 값의 오류, 잘못 분류 된 인스턴스 등
이 문제를 해결하는 한 가지 방법은 수동으로 데이터를 확인하고 확인하는 것이지만 다른 기술이 있습니까? (나는 내기했다!)
어느 쪽이 더 좋고 왜?
답변:
PCA와 같은 차원을 통한 차원 축소는 데이터를 나타내는 데 중요한 차원의 수를 이해하는 데 도움이됩니다.
잘못 분류 된 인스턴스를 확인하기 위해 데이터의 기초 k- 평균 군집화를 수행하여 원시 데이터가 제안 된 카테고리에 얼마나 적합한 지 알 수 있습니다. 자동 단계는 아니지만 시각적 두뇌는 강력한 분류기이므로이 단계에서 시각화하면 도움이됩니다.
완전히 누락 된 데이터와 관련하여 통계에는 대치, 기존 세트 또는 다른 세트에서 데이터를 가져와 간격을 메우는 등 이미 해당 상황을 처리하는 수많은 기술 이 있습니다.
지식이 풍부한 사람을 실제로 루프에서 제거하고 합리적인 결과를 기대할 수는 없습니다. 그렇다고해서 개인이 모든 단일 항목을 개별적으로 봐야한다는 의미는 아니지만 데이터 요약 / 그래프가 합리적인지 알기 위해서는 실제 지식이 필요합니다. (예 : 변수 A가 음수 일 수 있거나 변수 B가 변수 A보다 클 수 있습니까? 또는 범주 형 변수 C에 대해 4 또는 5 개의 선택이 있습니까?)
사람이 데이터를 잘 알고 있으면 데이터를 자동으로 테스트하는 데 사용할 수있는 일련의 규칙을 만들 수 있습니다. 문제는 생각하지 않은 다른 오류가 발생할 수 있다는 것입니다. (예를 들어, 변수 A를 변수 C에 복제하는 데이터 수집 프로세스의 프로그래밍 오류)