계층화 된 교차 검증 이해


54

계층화 된 교차 검증교차 검증 의 차이점은 무엇입니까 ?

위키피디아의 말 :

에서는 성층 K 배 교차 검증 평균 응답 값의 모든 폴드 대략 동일하도록, 주름이 선택된다. 이분법 적 분류의 경우, 이는 각 접힘이 두 유형의 클래스 레이블과 거의 동일한 비율을 포함한다는 것을 의미합니다.

그러나 나는 여전히 혼란 스럽다.

  1. mean response value이 맥락에서 무엇을 의미합니까?
  2. 1 번이 왜 중요한가요?
  3. 실제로 어떻게 1 위를 달성합니까?

답변:


43

데이터베이스 시스템 백과 사전의 교차 유효성 검사 기사는 다음과 같이 말합니다.

계층화는 각 접기가 전체를 잘 대표 할 수 있도록 데이터를 다시 정렬하는 프로세스입니다. 예를 들어, 각 클래스가 데이터의 50 %를 구성하는 이진 분류 문제의 경우 모든 배에서 각 클래스가 인스턴스의 약 절반을 구성하도록 데이터를 정렬하는 것이 가장 좋습니다.

계층화의 중요성에 대해 Kohavi (정확도 추정 및 모델 선택을위한 교차 검증 및 부트 스트랩 연구)는 다음과 같이 결론을 내립니다.

계층화는 일반적으로 정기적 인 교차 검증과 비교할 때 편향과 분산 측면에서 더 나은 체계입니다.


5
왜 CV가 더 나은지 직관적으로 설명 할 수 있습니까?
MohamedEzz

아마도 당신이 목표로 할 수있는 다른 층의 계층화가 있고 그것들이 폴드의 무작위성에 따라 다른 정도를 방해한다는 단락을 포함 할 것입니다. 때때로, 당신이 필요로하는 것은 각 폴드에 각 클래스의 최소한 하나의 레코드가 있는지 확인하는 것입니다. 그런 다음 무작위로 접기를 생성하고 해당 조건이 충족되는지 확인하고 그렇지 않은 경우에만 접기를 다시 섞습니다.
David Ernst

37

계층화는 각 접기가 데이터의 모든 계층을 나타내는 지 확인합니다. 일반적으로 이것은 분류를 위해 감독 방식으로 수행되며 각 클래스가 각 테스트 겹에 걸쳐 (대략적으로) 동일하게 표현되도록하는 것입니다 (물론 훈련 폴드를 형성하기 위해 보완적인 방식으로 결합 됨).

이 배후의 직관은 대부분의 분류 알고리즘의 편향과 관련이 있습니다. 그들은 각각의 인스턴스에 동일한 가중치를 부여하는 경향이 있습니다. 이는 과다 표현 된 클래스가 너무 많은 가중치를 부여 함을 의미합니다 (예 : F- 측정, 정확도 또는 보완적인 형태의 오류 최적화). 계층화는 각 클래스에 동일하게 가중치를 부여하는 알고리즘 (예 : Kappa, Informedness 또는 ROC AUC 최적화) 또는 비용 매트릭스에 따라 (예 : 각 클래스에 올바르게 가중치를 부여하고 / 또는 각 방법에 대한 비용을 제공하는) 알고리즘에는 그다지 중요하지 않습니다. 오 분류). 예를 들어 DMW Powers (2014), F- 측정이 측정하지 않는 것 : 기능, 결함, 오류 및 수정 사항을 참조하십시오. http://arxiv.org/pdf/1503.06410

편향되지 않거나 균형 잡힌 알고리즘에서도 중요한 한 가지 문제는 전혀 표현되지 않은 클래스를 배우거나 테스트 할 수없는 경향이 있으며 클래스 중 하나만있는 경우에도 마찬가지입니다. 접힘으로 표현 된 일반화는 resp를 수행 할 수 없습니다. 평가했다. 그러나 이러한 고려 사항조차 보편적이지 않으며, 예를 들어 개별 클래스에 대해 정상적인 것을 결정하려고 시도하고, 교차 검증을 고려할 때 특이 치를 다른 클래스로 효과적으로 식별하는 1 클래스 학습에는 그다지 적용되지 않습니다. 특정 분류기를 생성하지 않는 통계를 결정하는 것입니다.

반면, 감독 된 계층화는 테스트 데이터의 레이블이 교육에 영향을 미치지 않아야하지만 계층화에서 교육 인스턴스를 선택하는 데 사용되므로 평가의 기술적 순도를 떨어 뜨립니다. 감독되지 않은 계층화는 실제 클래스가 아닌 데이터의 속성 만 보도록 주변에 유사한 데이터를 분산시키는 것에 기초하여 가능합니다. 예를 들어 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), 정확성 추정을위한 교차 검증의 감독되지 않은 계층화를 참조하십시오.

분류는 분류가 아닌 회귀에 적용 할 수도 있는데,이 경우 감독되지 않은 계층화, ID보다는 유사성이 사용되지만 감독 된 버전은 알려진 실제 함수 값을 사용합니다.

더 복잡한 문제는 드문 클래스와 다중 레이블 분류이며, 분류는 여러 (독립적) 차원에서 수행됩니다. 여기서 모든 차원에 걸친 실제 레이블의 튜플은 교차 유효성 검사를 목적으로 클래스로 취급 될 수 있습니다. 그러나 모든 조합이 반드시 필요한 것은 아니며 일부 조합은 드물다. 희귀 클래스와 드문 조합은 K-CV에서 최소 한 번이지만 K 번 미만으로 발생하는 클래스 / 조합을 모든 테스트 폴더에 표시 할 수 없다는 문제가 있습니다. 그러한 경우에, 대신에 계층화 된 부스트 랩핑의 형태를 고려할 수있다 (반복으로 샘플링하여 반복 될 것으로 예상되는 전체 크기의 트레이닝 폴드를 생성하고 테스트를 위해 선택되지 않은 36.8 %의 예상되지 않은 것으로 예상 됨) .

다중 레이블 계층화에 대한 또 다른 방법은 대표 조합을 선택하지 않고 각 클래스 차원을 개별적으로 계층화하거나 부트 스트랩하는 것입니다. 레이블 l에 대해 L 레이블 및 N 인스턴스와 클래스 k의 kkl 클래스 인스턴스를 사용하면 레이블이 지정된 해당 인스턴스 집합 Dkl에서 대략 N / LKkl 인스턴스 중에서 무작위로 (대체없이) 선택할 수 있습니다. 이것은 최적의 균형을 보장하는 것이 아니라 균형을 추구합니다. 선택 사항이없는 경우 (일부 조합이 발생하지 않거나 드물기 때문에) 할당량을 초과하거나 초과하여 레이블 선택을 금지하여이를 개선 할 수 있습니다. 문제는 데이터가 너무 적거나 차원이 독립적이지 않다는 것을 의미합니다.


5

모든 답에서 평균 반응 값은 거의 같습니다. 모든 접힘에서 각 등급의 비율이 대략 같다고 말하는 또 다른 방법입니다.

예를 들어 80 개의 클래스 0 레코드와 20 개의 클래스 1 레코드가있는 데이터 세트가 있습니다. 우리는 (80 * 0 + 20 * 1) / 100 = 0.2의 평균 응답 값을 얻을 수 있으며 0.2는 모든 접기의 평균 응답 값이되기를 원합니다. 이것은 또한 EDA에서 주어진 데이터 셋이 카운팅 대신에 불균형인지 측정하는 빠른 방법입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.