자동 데이터 정리


10

일반적인 문제는 ML이 데이터의 품질이 좋지 않다는 것입니다. 기능 값의 오류, 잘못 분류 된 인스턴스 등

이 문제를 해결하는 한 가지 방법은 수동으로 데이터를 확인하고 확인하는 것이지만 다른 기술이 있습니까? (나는 내기했다!)

어느 쪽이 더 좋고 왜?


Google Refine는 살펴볼 가치가 있습니다.
Dimitriy V. Masterov 2019

답변:


6

PCA와 같은 차원을 통한 차원 축소는 데이터를 나타내는 데 중요한 차원의 수를 이해하는 데 도움이됩니다.

잘못 분류 된 인스턴스를 확인하기 위해 데이터의 기초 k- 평균 군집화를 수행하여 원시 데이터가 제안 된 카테고리에 얼마나 적합한 지 알 수 있습니다. 자동 단계는 아니지만 시각적 두뇌는 강력한 분류기이므로이 단계에서 시각화하면 도움이됩니다.

완전히 누락 된 데이터와 관련하여 통계에는 대치, 기존 세트 또는 다른 세트에서 데이터를 가져와 간격을 메우는 등 이미 해당 상황을 처리하는 수많은 기술 이 있습니다.


3
데이터 플로팅 수동 검사입니다.
andreister

@andreister 나는 스프레드 시트에서 단계별로 수동 검사를하는 것을 고려하지만, 당신이 얻는 것을 알았습니다.
jonsca

5

지식이 풍부한 사람을 실제로 루프에서 제거하고 합리적인 결과를 기대할 수는 없습니다. 그렇다고해서 개인이 모든 단일 항목을 개별적으로 봐야한다는 의미는 아니지만 데이터 요약 / 그래프가 합리적인지 알기 위해서는 실제 지식이 필요합니다. (예 : 변수 A가 음수 일 수 있거나 변수 B가 변수 A보다 클 수 있습니까? 또는 범주 형 변수 C에 대해 4 또는 5 개의 선택이 있습니까?)

사람이 데이터를 잘 알고 있으면 데이터를 자동으로 테스트하는 데 사용할 수있는 일련의 규칙을 만들 수 있습니다. 문제는 생각하지 않은 다른 오류가 발생할 수 있다는 것입니다. (예를 들어, 변수 A를 변수 C에 복제하는 데이터 수집 프로세스의 프로그래밍 오류)


좋은 대답입니다. 변수를 정리하는 데 사용되는 구문이 문서에 유지되고 변경 사항이있는 이유에 대한 설명이없는 경우 주석이 추가되도록 추가하기 만합니다. :)
Michelle

1

데이터가 좋지 않다는 것을 알고 있다면 항상 이상 값을 확인하는 것이 좋습니다. 대부분의 경우 이상이 있습니다.

많은 피처가있는 경우 치수 축소가 필수입니다. PCA는 매우 효율적입니다.

누락 된 데이터가있는 경우 대치 또는 보간을 사용할 수 있지만 필요에 따라 공동 필터링을 사용하는 것이 가장 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.