답변:
아니요, 허용되지 않습니다. 반복은 증거의 무게를 제공하는 것입니다.
복제본을 제거하면 네 잎 클로버는 일반 세 잎 클로버만큼 중요합니다. 왜냐하면 네 잎 클로버는 각각 한 번 발생하기 때문입니다. 반면 실제 생활에서는 10,000 클로버마다 네 잎 클로버가 있습니다.
당신이 말한 것처럼, 당신의 선행이 "조용히 기울어 져있다"고해도, 훈련 세트의 목적은 실제 경험을 축적하는 것이며, 주파수 정보를 잃어 버리면 달성 할 수 없습니다.
이전 답변에 동의하지만 여기에 내 예약이 있습니다. 의사 결정 트리와 같은 특정 분류 자에 대한 교육 및 테스트를 위해 샘플을 분리하는 동안 중복 항목을 제거하는 것이 좋습니다 . 데이터의 20 %가 특정 클래스에 속하고테스팅 트리와 같은 알고리즘 은 중복 샘플로 해당 클래스의 게이트웨이 를 생성 합니다. 본질적으로 올바른 출력에 대한 매우 구체적인 게이트웨이 가 있기 때문에 테스트 세트에서 잘못된 결과를 제공 할 수 있습니다 .
완전히 새로운 데이터에 해당 분류자를 배포 할 때 위의 20 % 샘플과 유사한 샘플이 없으면 성능이 크게 저하 될 수 있습니다.
논증 :이 상황은 결함이있는 데이터 세트를 가리키고 있다고 생각할 수도 있지만 이것이 실제 응용 프로그램에 해당한다고 생각합니다.
신경망, 베이지안 모델 등의 중복 제거는 허용되지 않습니다.