계층화는 각 접기가 데이터의 모든 계층을 나타내는 지 확인합니다. 일반적으로 이것은 분류를 위해 감독 방식으로 수행되며 각 클래스가 각 테스트 겹에 걸쳐 (대략적으로) 동일하게 표현되도록하는 것입니다 (물론 훈련 폴드를 형성하기 위해 보완적인 방식으로 결합 됨).
이 배후의 직관은 대부분의 분류 알고리즘의 편향과 관련이 있습니다. 그들은 각각의 인스턴스에 동일한 가중치를 부여하는 경향이 있습니다. 이는 과다 표현 된 클래스가 너무 많은 가중치를 부여 함을 의미합니다 (예 : F- 측정, 정확도 또는 보완적인 형태의 오류 최적화). 계층화는 각 클래스에 동일하게 가중치를 부여하는 알고리즘 (예 : Kappa, Informedness 또는 ROC AUC 최적화) 또는 비용 매트릭스에 따라 (예 : 각 클래스에 올바르게 가중치를 부여하고 / 또는 각 방법에 대한 비용을 제공하는) 알고리즘에는 그다지 중요하지 않습니다. 오 분류). 예를 들어 DMW Powers (2014), F- 측정이 측정하지 않는 것 : 기능, 결함, 오류 및 수정 사항을 참조하십시오. http://arxiv.org/pdf/1503.06410
편향되지 않거나 균형 잡힌 알고리즘에서도 중요한 한 가지 문제는 전혀 표현되지 않은 클래스를 배우거나 테스트 할 수없는 경향이 있으며 클래스 중 하나만있는 경우에도 마찬가지입니다. 접힘으로 표현 된 일반화는 resp를 수행 할 수 없습니다. 평가했다. 그러나 이러한 고려 사항조차 보편적이지 않으며, 예를 들어 개별 클래스에 대해 정상적인 것을 결정하려고 시도하고, 교차 검증을 고려할 때 특이 치를 다른 클래스로 효과적으로 식별하는 1 클래스 학습에는 그다지 적용되지 않습니다. 특정 분류기를 생성하지 않는 통계를 결정하는 것입니다.
반면, 감독 된 계층화는 테스트 데이터의 레이블이 교육에 영향을 미치지 않아야하지만 계층화에서 교육 인스턴스를 선택하는 데 사용되므로 평가의 기술적 순도를 떨어 뜨립니다. 감독되지 않은 계층화는 실제 클래스가 아닌 데이터의 속성 만 보도록 주변에 유사한 데이터를 분산시키는 것에 기초하여 가능합니다. 예를 들어
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855
NA Diamantidis, D. Karlis, EA Giakoumakis (1997), 정확성 추정을위한 교차 검증의 감독되지 않은 계층화를 참조하십시오.
분류는 분류가 아닌 회귀에 적용 할 수도 있는데,이 경우 감독되지 않은 계층화, ID보다는 유사성이 사용되지만 감독 된 버전은 알려진 실제 함수 값을 사용합니다.
더 복잡한 문제는 드문 클래스와 다중 레이블 분류이며, 분류는 여러 (독립적) 차원에서 수행됩니다. 여기서 모든 차원에 걸친 실제 레이블의 튜플은 교차 유효성 검사를 목적으로 클래스로 취급 될 수 있습니다. 그러나 모든 조합이 반드시 필요한 것은 아니며 일부 조합은 드물다. 희귀 클래스와 드문 조합은 K-CV에서 최소 한 번이지만 K 번 미만으로 발생하는 클래스 / 조합을 모든 테스트 폴더에 표시 할 수 없다는 문제가 있습니다. 그러한 경우에, 대신에 계층화 된 부스트 랩핑의 형태를 고려할 수있다 (반복으로 샘플링하여 반복 될 것으로 예상되는 전체 크기의 트레이닝 폴드를 생성하고 테스트를 위해 선택되지 않은 36.8 %의 예상되지 않은 것으로 예상 됨) .
다중 레이블 계층화에 대한 또 다른 방법은 대표 조합을 선택하지 않고 각 클래스 차원을 개별적으로 계층화하거나 부트 스트랩하는 것입니다. 레이블 l에 대해 L 레이블 및 N 인스턴스와 클래스 k의 kkl 클래스 인스턴스를 사용하면 레이블이 지정된 해당 인스턴스 집합 Dkl에서 대략 N / LKkl 인스턴스 중에서 무작위로 (대체없이) 선택할 수 있습니다. 이것은 최적의 균형을 보장하는 것이 아니라 균형을 추구합니다. 선택 사항이없는 경우 (일부 조합이 발생하지 않거나 드물기 때문에) 할당량을 초과하거나 초과하여 레이블 선택을 금지하여이를 개선 할 수 있습니다. 문제는 데이터가 너무 적거나 차원이 독립적이지 않다는 것을 의미합니다.