건강 문제를 예측하고 싶습니다. '정상', '가벼운'및 '심각한'의 3 가지 결과 범주가 있습니다. 나는이 문제 (예 또는 아니오)와 함께 두 개의 예측 변수, 테스트 결과 (연속, 간격 공변량) 및 가족 이력으로부터 이것을 예측하고 싶습니다. 필자의 샘플에서 확률은 55 % (정상), 35 % (가벼움) 및 10 % (심각)입니다. 이런 의미에서, 나는 항상 '정상적인'것을 예측할 수 있었고 시간의 55 %를 맞출 수있었습니다. 다음 모델에 적합합니다.
상호 작용이없고 모델과 관련된 모든 것이 있다고 가정합니다. 일치도 c는 60.5 %이며, 이는 모델이 제공하는 최대 예측 정확도 인 것으로 이해합니다.
나는 다음과 같은 데이터를 가진 두 명의 새로운 환자를 만난다 : 1. 검사 = 3.26, 가족 = 0; 2. 테스트 = 2.85, 가족 = 1. 나는 그들의 예후를 예측하고 싶습니다. 공식 사용 : (그리고 누적 확률), 모델의 조건부 반응 범주에 대한 확률 분포를 계산할 수 있습니다. R 코드 (nb, 반올림 문제로 인해 출력이 완벽하게 일치하지 않음) :
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
즉, 1. 0 = 55.1 %, 1 = 35.8 %, 2 = 9.1 %; 및 2. 0 = 35.6 %, 1 = 46.2 %, 2 = 18.2 %. 내 질문은 확률 분포에서 예측 반응 범주로 어떻게 이동합니까?
결과가 알려진 샘플 데이터를 사용하여 여러 가지 가능성을 시도했습니다. 최대 (확률)을 선택하면 정확도는 57 %로 null보다 약간 향상되었지만 일치도보다 낮습니다. 또한 샘플 에서이 접근법은 결코 '심각한'을 선택하지 않으며, 이것이 내가 정말로 알고 싶은 것입니다. null 및 모델 확률을 승산으로 변환 한 다음 최대 (홀수 비율)를 선택하여 베이지안 접근법을 시도했습니다. 이것은 때때로 '심하게'선택하지만 정확도는 49.5 % 나빠집니다. 또한 확률과 반올림에 의해 가중치가 부여 된 범주의 합계를 시도했습니다. 다시 말하지만, '심각한'선택은하지 않으며 정확도는 51.5 %입니다.
위의 정보를 취하여 최적의 정확도 (60.5 %)를 산출하는 방정식은 무엇입니까?