다음 형식의 데이터 세트가 있습니다.
이진 결과 암이 있거나 암이 없습니다. 데이터 세트의 모든 의사는 모든 환자를보고 환자에게 암이 있는지 여부에 대한 독립적 인 판단을 내 렸습니다. 그런 다음 의사는 5 단계 중 자신의 진단이 정확하고 신뢰 수준이 괄호 안에 표시된다는 신뢰 수준을 제공합니다.
이 데이터 세트에서 좋은 예측을 얻기 위해 다양한 방법을 시도했습니다.
의사의 평균 수준을 무시하고 자신감 수준을 무시하는 것이 꽤 효과적입니다. 위의 표에서 환자 1과 환자 2에 대해 올바른 진단을 내릴 수 있지만, 환자 3은 암에 걸렸다 고 잘못 말했지만 의사는 환자 2가 대다수가 암에 걸렸다 고 생각하기 때문입니다.
나는 또한 두 명의 의사를 무작위로 추출하는 방법을 시도했으며, 그들이 서로 동의하지 않으면 의사 결정에 더 자신감이있는 사람에게 결정 투표를합니다. 이 방법은 많은 의사와 상담 할 필요가 없다는 점에서 경제적이지만 오류율도 상당히 증가합니다.
나는 우리가 두 명의 의사를 무작위로 선택하는 관련 방법을 시도했으며, 그들이 서로 동의하지 않으면 무작위로 두 명을 더 선택합니다. 하나 이상의 진단이 적어도 두 개의 '투표'로 진행되면 해당 진단을 위해 문제를 해결합니다. 그렇지 않다면, 우리는 더 많은 의사를 계속 샘플링합니다. 이 방법은 매우 경제적이며 많은 실수를하지 않습니다.
좀 더 정교한 방식으로 일을 잃어버린 느낌이 들지 않습니다. 예를 들어, 데이터 세트를 훈련 및 테스트 세트로 나누고 진단을 결합하는 최적의 방법을 찾은 다음 해당 가중치가 테스트 세트에서 어떻게 수행되는지 확인할 수있는 방법이 있는지 궁금합니다. 한 가지 가능성은 시험 세트에서 실수를 저지른 체중 감량 의사와 저 자신감 검사로 고생 진단을 할 수있는 일종의 방법입니다 (자신감은이 데이터 세트의 정확성과 관련이 있습니다).
이 일반적인 설명과 일치하는 다양한 데이터 세트가 있으므로 샘플 크기가 다양하며 모든 데이터 세트가 의사 / 환자와 관련이있는 것은 아닙니다. 그러나이 특정 데이터 세트에는 각각 108 명의 환자를 본 40 명의 의사가 있습니다.
편집 : 다음은 @ jeremy-miles의 답변을 읽은 결과로 나온 가중치에 대한 링크 입니다.
비가 중 결과는 첫 번째 열에 있습니다. 실제로이 데이터 세트에서 내가 실수로 말한 것처럼 최대 신뢰도 값은 5가 아니라 4입니다. 따라서 @ jeremy-miles의 접근법에 따르면 환자가 얻을 수있는 가장 높은 비가 중 점수는 7이됩니다. 이는 말 그대로 모든 의사가 환자가 암에 걸렸다는 신뢰 수준 4를 주장한다는 의미입니다. 환자가 얻을 수있는 가장 낮은 비가 중 점수는 0이며, 이는 모든 의사가 환자에게 암이 없음을 신뢰 수준 4로 주장했음을 의미합니다.
Cronbach의 알파에 의한 가중치. SPSS에서 전체 Cronbach의 알파 0.9807이 있음을 발견했습니다. Cronbach의 알파를보다 수동으로 계산 하여이 값이 올바른지 확인하려고했습니다. 내가 붙여 모두 40 의사의 공분산 행렬 생성 여기를 . 그런 다음 Cronbach의 알파 공식에 대한 나의 이해를 바탕으로 어디 내가 계산 한 항목의 수입니다 (여기서는 의사는 '항목'입니다) 공분산 행렬의 모든 대각선 요소를 합산하여 공분산 행렬의 모든 요소를 합산합니다. 나는 그때 얻었다그런 다음 각 의사가 데이터 세트에서 제거 될 때 발생하는 40 가지 Cronbach Alpha 결과를 계산했습니다. 나는 Cronbach의 알파에 부정적으로 기여한 의사를 0으로 가중시켰다. 나는 나머지 의사들이 크론 바흐의 알파에 긍정적으로 기여한 것에 대한 가중치를 생각 해냈다.
총 항목 상관 관계 별 가중치. 모든 전체 항목 상관 관계를 계산 한 다음 각 의사의 상관 관계 크기에 비례하여 가중치를 적용합니다.
회귀 계수에 의한 가중치.
내가 아직도 확실하지 않은 한 가지는 어떤 방법이 다른 방법보다 "더 잘"작동하는지 말하는 방법입니다. 이전에는 이진 예측 및 이진 결과가있는 경우에 적합한 Peirce Skill Score와 같은 항목을 계산했습니다. 그러나 이제 0에서 1 대신 0에서 7 사이의 예측 범위를 갖습니다. 모든 가중치 점수> 3.50을 1로 변환하고 모든 가중치를 <3.50에서 0으로 변환해야합니까?
Cancer (4)
를 가진 암 예측에서 최대 신뢰도 를 가진 암이없는 예측까지 다양합니다 No Cancer (4)
. 우리는 말할 수 없다 No Cancer (3)
와 Cancer (2)
동일하지만, 우리는 거기 연속이며,이 연속체의 중간 점은 말할 수 Cancer (1)
와 No Cancer (1)
.
No Cancer (3)
있다Cancer (2)
? 그렇게하면 문제가 약간 단순화됩니다.