우선, 데이터 마이닝 책에서 언밸런스 드 데이터 세트 를 처리하는 방법을 설명하는 데 사용되는 일반적인 레이아웃에 대해 설명하겠습니다 . 일반적으로 주 섹션은 언밸런스 드 데이터 셋 (Unbalanced Datasets)으로 구성되며 비용에 민감한 분류 및 샘플링 기법이라는 두 가지 하위 섹션을 포함합니다.
드문 클래스 에서 문제가 발생 하면 비용에 민감한 분류와 샘플링을 모두 수행 할 수 있습니다. 대신, 희귀 클래스가 분류의 대상이고 해당 클래스의 레코드를 잘못 분류하는 데 비용이 많이 드는 경우 비용에 민감한 기술을 적용해야한다고 생각합니다.
반면에, 오버 샘플링 및 언더 샘플링과 같은 샘플링 기술은 분류의 목표가 특정 클래스에 초점을 맞추지 않고 전반적으로 우수한 정확도 인 경우 유용합니다.
이러한 믿음은 분류기를 비용에 민감하게 만드는 일반적인 방법 인 MetaCost 의 이론적 근거에서 비롯 됩니다. 희소 한 클래스의 오 분류 오류를 처벌하기 위해 분류자를 비용에 민감하게 만들려면 다른 클래스를 오버 샘플링해야합니다 . 대략적으로 말하면 분류자는 다른 클래스에 적응하려고 시도하며 희귀 클래스에 따라 달라집니다.
이것은 드문 클래스를 오버 샘플링하는 것과 반대입니다. 이는 일반적으로이 문제를 처리하기 위해 제안되는 방법입니다. 희귀 클래스의 오버 샘플링 또는 다른 클래스의 언더 샘플링은 전체 정확도를 향상시키는 데 유용합니다.
내 생각을 확인하면 좋을 것입니다.
이것을 언급하면, 불균형 데이터 세트가 직면하는 일반적인 질문은 다음과 같습니다.
다른 레코드보다 많은 레코드 수를 계산하는 데이터 세트를 가져와야합니까?
내 대답은 당신이 정확성을 찾고 있다면 : 괜찮습니다. 좀 더 드문 클래스 예제를 찾거나 다른 클래스의 일부 레코드를 삭제하여 수행 할 수 있습니다.
비용에 민감한 기술을 사용하여 희귀 한 클래스에 집중하는 경우 대답합니다. 더 희귀 한 클래스 예제 만 찾을 수 있지만 다른 클래스의 레코드는 삭제해서는 안됩니다. 후자의 경우 분류자가 다른 클래스에 적응하도록 할 수 없으며 드문 클래스 오 분류 오류가 증가 할 수 있습니다.
당신은 무엇에 대답 하시겠습니까?