이진 클래스 특성이있는 데이터 집합이 있습니다. +1 클래스 (암 양성)의 623 개의 인스턴스와 -1 클래스 (암 음성)의 101,671 개의 인스턴스가 있습니다.
다양한 알고리즘 (Naive Bayes, Random Forest, AODE, C4.5)을 시도했지만 모두 허용 할 수없는 거짓 음수 비율을 가지고 있습니다. 랜덤 포레스트는 전체 예측 정확도가 가장 높고 (99.5 %)가 음성 비율이 가장 낮지 만 여전히 양성 클래스의 79 %가 누락됩니다 (즉, 악성 종양의 79 %를 감지하지 못함).
이 상황을 어떻게 개선 할 수 있습니까?
감사!