분류를 위해 훈련 세트에서 중복 제거

9

분류 문제에 대해 많은 행이 있다고 가정 해 봅시다.

X_{1}, . . . X_{N}, Y

$X_1, ... X_N, Y$

어디 $X_1, ..., X_N$ 기능 / 예측 자와 $Y$ 행의 기능 조합이 속한 클래스입니다.

많은 기능 조합과 해당 클래스가 데이터 세트에서 반복되어 분류기에 적합합니다. 중복을 제거 할 수 있는지 궁금합니다 (기본적으로 group by X1 ... XN YSQL에서 수행 )? 감사.

추신:

이것은 클래스 우선 순위가 상당히 왜곡 된 이진 존재 전용 데이터 집합입니다.

— cs0815
소스

13

아니요, 허용되지 않습니다. 반복은 증거의 무게를 제공하는 것입니다.

복제본을 제거하면 네 잎 클로버는 일반 세 잎 클로버만큼 중요합니다. 왜냐하면 네 잎 클로버는 각각 한 번 발생하기 때문입니다. 반면 실제 생활에서는 10,000 클로버마다 네 잎 클로버가 있습니다.

당신이 말한 것처럼, 당신의 선행이 "조용히 기울어 져있다"고해도, 훈련 세트의 목적은 실제 경험을 축적하는 것이며, 주파수 정보를 잃어 버리면 달성 할 수 없습니다.

— 카를로스 액시 올리
소스

1

이전 답변에 동의하지만 여기에 내 예약이 있습니다. 의사 결정 트리와 같은 특정 분류 자에 대한 교육 및 테스트를 위해 샘플을 분리하는 동안 중복 항목을 제거하는 것이 좋습니다 . 데이터의 20 %가 특정 클래스에 속하고 $\frac{1}{4}^{th}$ 테스팅 트리와 같은 알고리즘 은 중복 샘플로 해당 클래스의 게이트웨이 를 생성 합니다. 본질적으로 올바른 출력에 대한 매우 구체적인 게이트웨이 가 있기 때문에 테스트 세트에서 잘못된 결과를 제공 할 수 있습니다 .

완전히 새로운 데이터에 해당 분류자를 배포 할 때 위의 20 % 샘플과 유사한 샘플이 없으면 성능이 크게 저하 될 수 있습니다.

논증 :이 상황은 결함이있는 데이터 세트를 가리키고 있다고 생각할 수도 있지만 이것이 실제 응용 프로그램에 해당한다고 생각합니다.

신경망, 베이지안 모델 등의 중복 제거는 허용되지 않습니다.

— 락 시트 코타 리
소스

또 다른 가능한 해결책은 발생 빈도에 따라 복제물의 가중치를 낮추는 것입니다.

— Rakshit Kothari