언밸런스 드 클래스 오버 / 언더 샘플링시 정확도를 극대화하는 것은 오 분류 비용을 최소화하는 것과 다른가?


14

우선, 데이터 마이닝 책에서 언밸런스 드 데이터 세트 를 처리하는 방법을 설명하는 데 사용되는 일반적인 레이아웃에 대해 설명하겠습니다 . 일반적으로 주 섹션은 언밸런스 드 데이터 셋 (Unbalanced Datasets)으로 구성되며 비용에 민감한 분류 및 샘플링 기법이라는 두 가지 하위 섹션을 포함합니다.

드문 클래스 에서 문제가 발생 하면 비용에 민감한 분류와 샘플링을 모두 수행 할 수 있습니다. 대신, 희귀 클래스가 분류의 대상이고 해당 클래스의 레코드를 잘못 분류하는 데 비용이 많이 드는 경우 비용에 민감한 기술을 적용해야한다고 생각합니다.

반면에, 오버 샘플링 및 언더 샘플링과 같은 샘플링 기술은 분류의 목표가 특정 클래스에 초점을 맞추지 않고 전반적으로 우수한 정확도 인 경우 유용합니다.

이러한 믿음은 분류기를 비용에 민감하게 만드는 일반적인 방법 인 MetaCost 의 이론적 근거에서 비롯 됩니다. 희소 한 클래스의 오 분류 오류를 처벌하기 위해 분류자를 비용에 민감하게 만들려면 다른 클래스를 오버 샘플링해야합니다 . 대략적으로 말하면 분류자는 다른 클래스에 적응하려고 시도하며 희귀 클래스에 따라 달라집니다.

이것은 드문 클래스를 오버 샘플링하는 것과 반대입니다. 이는 일반적으로이 문제를 처리하기 위해 제안되는 방법입니다. 희귀 클래스의 오버 샘플링 또는 다른 클래스의 언더 샘플링은 전체 정확도를 향상시키는 데 유용합니다.

내 생각을 확인하면 좋을 것입니다.

이것을 언급하면, 불균형 데이터 세트가 직면하는 일반적인 질문은 다음과 같습니다.

다른 레코드보다 많은 레코드 수를 계산하는 데이터 세트를 가져와야합니까?

내 대답은 당신이 정확성을 찾고 있다면 : 괜찮습니다. 좀 더 드문 클래스 예제를 찾거나 다른 클래스의 일부 레코드를 삭제하여 수행 할 수 있습니다.

비용에 민감한 기술을 사용하여 희귀 한 클래스에 집중하는 경우 대답합니다. 더 희귀 한 클래스 예제 만 찾을 수 있지만 다른 클래스의 레코드는 삭제해서는 안됩니다. 후자의 경우 분류자가 다른 클래스에 적응하도록 할 수 없으며 드문 클래스 오 분류 오류가 증가 할 수 있습니다.

당신은 무엇에 대답 하시겠습니까?


2
희귀 한 수업에 대한 새로운 기록을 찾아내는 것은 불가능할 수 있습니다. 더 희귀 한 이벤트를 생성하는 데 비용이 많이 들거나 (생물 정보학) 위험 (은행 대출)하기 때문에 데이터가 이런 식으로 구성되어 있다고 가정합니다.
steffen

물론 일반적으로 제안되는 솔루션입니다. 그러나 더 희귀 한 클래스 예제를 찾을 수 있으면 다른 예제도 찾을 수 있습니다. 훈련 세트는 레코드 유니버스의 대표 샘플이어야하기 때문입니다. 따라서 오버 샘플링을 수행하는 것처럼 보입니다.
Simone

답변:


9

좋은 질문입니다. 개인적으로, 제 대답은 (계산상의 이유가 아닌 한) 데이터를 버리는 것이 결코 합리적이지 않을 것입니다. 데이터가 많을수록 세계 모델이 더 좋을 수 있습니다. 따라서 작업에 적절한 방식으로 비용 함수를 수정하는 것으로 충분합니다. 예를 들어, 특정 레어 클래스에 관심이 있다면이 클래스의 오 분류를 더 비싸게 만들 수 있습니다. 균형 측정에 관심이있는 경우 균형 오류율 (각 클래스의 평균 오류) 또는 Matthews 상관 계수와 같은 것이 적절합니다. 전체 분류 오류에만 관심이 있다면 전통적인 0-1 손실 입니다.

이 문제에 대한 현대적인 접근 방식은 Active Learning을 사용하는 것입니다. 예를 들어 Hospedales et al (2011) "희귀 한 클래스 찾기 : 생성 및 판별 모델을 사용한 능동적 학습, 지식 및 데이터 공학에 대한 IEEE 트랜잭션 (TKDE 2011)" 그러나 이러한 접근 방식은 여전히 ​​상대적으로 덜 성숙하다고 생각합니다.


흥미로운 측정 방법은 균형 측정이 필요한 경우에 Metthews를 측정하는 것입니다. 그러나 비용 함수에 대한 샘플링 또는 수정을 수행하기 전에 레코드를 삭제하지 않으려는 경우 드문 클래스 예제를 추가하여 데이터 세트의 균형을 조정 하시겠습니까? 나는 대답이 NO 일 수 있다고 생각한다. 드문 클래스 예제를 찾으면 다른 예제를 찾을 수 있기 때문입니다. 따라서보다 균형 잡힌 측정 또는 더 나은 희귀 클래스 성능 측정 (예 : F- 측정)을 얻으려면 데이터 수집 단계 후에 만 ​​기술 (예 : 샘플링 또는 비용의 모드)을 수행합니다. 동의하십니까?
Simone

동의, 이와 같은 모든 작업은 데이터 수집 단계 후에 수행해야합니다.
tdc
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.