직관적 인 추론은 블로그 포스트에서 설명되었습니다 :
우리의 목표가 예측이라면, 이것은 명확한 편견을 야기 할 것입니다. 더 나쁜 것은 표본 크기가 커짐에 따라 일관된 추정치가 없다는 점에서 영구적 인 편견입니다.
따라서 (인공적으로) 균형 잡힌 데이터의 문제는 불균형 한 경우보다 더 나쁩니다.
균형 잡힌 데이터는 분류에는 좋지만 외관 빈도에 대한 정보는 잃어 버려 정확도 지표 자체와 생산 성능에 영향을 미칩니다.
손으로 쓴 글자를 영어 알파벳 (26 글자)으로 인식한다고 가정 해 봅시다. 모든 문자 모양을 오버 밸런싱하면 모든 문자에 대략 1/26으로 분류 될 가능성이 주어 지므로 분류기는 원래 샘플에서 문자의 실제 분포를 잊게됩니다. 그리고 그건 괜찮 분류는 높은 정밀도로 모든 편지를 일반화하고 인식 할 수있을 때 .
그러나 정확성과 가장 중요한 일반화가 "너무 높지 않은"경우 (정의를 줄 수는 없습니다- "최악의 사례"로 생각할 수 있습니다)-잘못 분류 된 점은 모든 문자에 동일하게 분포 될 것입니다 , 같은 :
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
균형을 맞추지 않고 반대로 ( "A"와 "C"가 텍스트에서 훨씬 더 높은 확률로 가정 할 경우)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
따라서 빈번한 사례는 오 분류가 줄어 듭니다. 그것이 좋은지 아닌지는 당신의 작업에 달려 있습니다. 높은 주파수가 더 실용적이다 함께 그들이 (의미 나타내며 예측에 가까운 인식 작업을 가져, 원본 텍스트의 의미를 보존하는 것처럼 자연 문자 인식의 경우, 하나는, 그 편지를 주장 할 수 경향 ). 그러나 ECDSA 키의 스크린 샷 (보다 엔트로피-> 예측이 적음) 과 같은 것을 인식하려고하면 데이터의 불균형을 유지하는 것이 도움이되지 않습니다. 다시 말하지만, 그것은 달려 있습니다.
가장 중요한 차이점은 정확도 추정 자체가 (편평한 알파벳 예제에서 볼 수 있듯이) 편향되어 있기 때문에 모델의 동작이 가장 드물거나 가장 빈번한 점에 의해 어떻게 영향을 받는지 알 수 없다는 것입니다.
PS 당신은 항상 언밸런스 분류의 성능을 추적 할 수 있습니다 정밀 / 리콜 통계 먼저 당신이 균형 여부를 추가해야하는지 여부를 결정합니다.
편집 : 표본 평균 과 모집단 평균 의 차이에 정확하게 이론 을 추정 하는 데 추가적인 혼란이 있습니다 . 예를 들어, 알파벳 로 영어 문자의 실제 분포를 알고 있을지 모르지만 샘플 (트레이닝 세트)은 올바르게 추정하기에 충분히 크지 않습니다 ( ). 따라서 를 보상하기 위해 모집단 자체 또는 더 큰 표본에서 알려진 매개 변수에 따라 클래스를 재조정하는 것이 좋습니다.p(xi|θ)p(xi|θ^)θ^i−θi(따라서 더 나은 견적). 그러나 실제로는 모든 단계에서 바이어스 된 데이터를 가져올 위험 (기술 문헌과 소설 대 전체 도서관에서 수집 된 영어 문자) 때문에 "더 큰 샘플"이 동일하게 배포 될 것이라는 보장이 없으므로 균형이 여전히 해로울 수 있습니다.
이 답변 은 또한 균형을 맞추기위한 적용 가능성 기준을 명확히해야합니다.
계급 불균형 문제는 소수 패턴에 속하는 패턴이 충분하지 않기 때문에 발생합니다. 그 자체로 양수 패턴과 음수 패턴의 비율이 아닙니다. 일반적으로 데이터가 충분하면 "클래스 불균형 문제"가 발생하지 않습니다
결론적으로, 훈련 세트가 충분히 큰 경우 인공 균형은 거의 유용하지 않습니다. 동일하게 분포 된 더 큰 표본 의 통계 데이터가 없으면 인공 균형 (특히 예측)이 필요하지 않습니다. 그렇지 않으면 추정기의 품질이 "공룡을 만나기위한 확률"만큼 우수합니다.
거리에서 공룡을 만날 확률은 얼마입니까?
1/2 공룡을 만나거나 공룡을 만나지 않는다