분류에서 훈련 데이터를 생성하기위한 계층화 및 무작위 샘플링의 이점


20

원래 데이터 세트를 분류를위한 훈련 및 테스트 세트로 분할 할 때 무작위 샘플링 대신 계층화 샘플링을 사용하면 어떤 이점이 있는지 알고 싶습니다.

또한 계층화 된 샘플링이 무작위 샘플링보다 분류기에 더 많은 편향을 가져 옵니까?

데이터 준비를 위해 계층화 된 샘플링을 사용하려는 응용 프로그램은 2에 대해 훈련 된 Random Forests 분류기입니다.2원래 데이터 세트 중 3 개 분류기 이전에, 클래스 크기의 균형을 맞추는 합성 샘플 생성 단계 (SMOTE [1])도 있습니다.

Chawla, Nitesh V., 등. " SMOTE : 합성 소수 오버 샘플링 기술. "Journal of Artificial Intelligence Research 16 (2002) : 321-357.

답변:


20

계층화 된 샘플링 은 각 스플릿이 무언가에 대해 유사하도록 데이터 세트를 분할하는 것을 목표로합니다.

분류 설정에서는 종종 열차 및 테스트 세트가 전체 세트와 각 대상 클래스의 샘플 비율이 거의 동일한 지 확인하기 위해 선택됩니다.

결과적으로 데이터 세트에 많은 클래스가있는 경우 계층화 된 샘플링은 무작위 샘플링과 거의 동일합니다. 그러나 소수 클래스를 오버 샘플링 할 계획이 있으므로 데이터 세트에 하나의 클래스가 많이 표시되지 않으면 데이터 세트에 해당 될 수 있습니다. 계층화 된 샘플링은 기차 및 테스트 세트에서 임의의 클래스와 다른 대상 클래스 분포를 생성 할 수 있습니다 샘플링이 발생할 수 있습니다.

계층화 된 샘플링은 다음 트레인 및 테스트 세트의 일부 기능을 균등하게 분배하도록 설계 될 수도 있습니다. 예를 들어, 각 표본이 하나의 개인을 나타내고 하나의 지형지 물이 연령 인 경우 기차 및 테스트 세트에서 동일한 연령 분포를 갖는 것이 유용한 경우가 있습니다.

참고 사항 :

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.