나는 구별하는 분류 훈련을 찾고 있어요 Type A
하고 Type B
있는 절반에 대해, 약 10,000 개체의 합리적 큰 훈련 집합 개체를 Type A
그중 절반을 Type B
. 데이터 세트는 셀의 물리적 특성 (크기, 평균 반경 등)을 자세히 설명하는 100 개의 연속 기능으로 구성됩니다. 쌍별 산점도 및 밀도 플롯으로 데이터를 시각화하면 많은 특징에서 암성 및 정상 세포의 분포에 유의 한 중복이 있음을 알 수 있습니다.
현재이 데이터 집합의 분류 방법으로 임의 포리스트를 탐색하고 있으며 좋은 결과를보고 있습니다. R을 사용하면 임의 포리스트가 개체의 약 90 %를 올바르게 분류 할 수 있습니다.
우리가 시도하고하고자하는 것 중 하나는 물체의 분류에 대해 얼마나 확신하는지 정량화하는 일종의 "확실성 점수"를 만드는 것입니다. 우리는 분류 기가 100 % 정확하지 않을 것이라는 것을 알고 있으며, 예측에서 높은 정확도가 달성 되더라도 숙련 된 기술자가 어떤 물체가 진정 Type A
이고 어떤 물체인지 식별하기를 원합니다 Type B
. 따라서 Type A
또는 에 대한 타협하지 않는 예측을 제공하는 대신 Type B
, 우리 는 객체가 어떻게 A
또는 객체인지를 설명 할 각 객체에 대한 점수를 제시하고자합니다 B
. 예를 들어, 0에서 10 사이의 점수를 만들면 점수 0은 객체가 객체와 매우 유사하다는 것을 나타낼 수 있지만 점수 10은 객체가 매우 유사 함을 Type A
나타냅니다 Type B
.
나는 임의의 숲 내에서 투표를 사용하여 그러한 점수를 만들 수 있다고 생각했습니다. 임의의 숲에 대한 분류는 생성 된 나무의 숲 내에서 다수의 투표로 이루어 지므로, 100 %의 나무로 Type A
투표 한 대상은 나무의 51 %가 투표 한 대상과 다를 것이라고 가정합니다 수 Type A
.
현재 객체가 Type A
또는 로 분류하기 위해 받아야하는 투표 비율에 대해 임의의 임계 값을 설정하려고 시도 Type B
했으며 임계 값이 통과되지 않으면로 분류됩니다 Uncertain
. 예를 들어, 80 % 이상의 나무가 분류에 대한 결정에 동의해야한다는 조건을 강요하면 클래스 예측의 99 %는 정확하지만 개체의 약 40 %는로 비닝됩니다 Uncertain
.
그렇다면 투표 정보를 활용하여 예측의 확실성을 평가하는 것이 이치에 맞습니까? 아니면 내 생각에 잘못된 방향으로 가고 있습니까?