순서 형 로지스틱 회귀 모형이 제공되는 반응 범주를 어떻게 예측합니까?


13

건강 문제를 예측하고 싶습니다. '정상', '가벼운'및 '심각한'의 3 가지 결과 범주가 있습니다. 나는이 문제 (예 또는 아니오)와 함께 두 개의 예측 변수, 테스트 결과 (연속, 간격 공변량) 및 가족 이력으로부터 이것을 예측하고 싶습니다. 필자의 샘플에서 확률은 55 % (정상), 35 % (가벼움) 및 10 % (심각)입니다. 이런 의미에서, 나는 항상 '정상적인'것을 예측할 수 있었고 시간의 55 %를 맞출 수있었습니다. 다음 모델에 적합합니다.

the cut point for (y1)^=2.18the cut point for (y2)^=4.27β^test=0.60β^family history=1.05

상호 작용이없고 모델과 관련된 모든 것이 있다고 가정합니다. 일치도 c는 60.5 %이며, 이는 모델이 제공하는 최대 예측 정확도 인 것으로 이해합니다.

나는 다음과 같은 데이터를 가진 두 명의 새로운 환자를 만난다 : 1. 검사 = 3.26, 가족 = 0; 2. 테스트 = 2.85, 가족 = 1. 나는 그들의 예후를 예측하고 싶습니다. 공식 사용 : (그리고 누적 확률), 모델의 조건부 반응 범주에 대한 확률 분포를 계산할 수 있습니다. R 코드 (nb, 반올림 문제로 인해 출력이 완벽하게 일치하지 않음) :

exp(XβcutPoint)(1+exp(XβcutPoint))
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

즉, 1. 0 = 55.1 %, 1 = 35.8 %, 2 = 9.1 %; 및 2. 0 = 35.6 %, 1 = 46.2 %, 2 = 18.2 %. 내 질문은 확률 분포에서 예측 반응 범주로 어떻게 이동합니까?

결과가 알려진 샘플 데이터를 사용하여 여러 가지 가능성을 시도했습니다. 최대 (확률)을 선택하면 정확도는 57 %로 null보다 약간 향상되었지만 일치도보다 낮습니다. 또한 샘플 에서이 접근법은 결코 '심각한'을 선택하지 않으며, 이것이 내가 정말로 알고 싶은 것입니다. null 및 모델 확률을 승산으로 변환 한 다음 최대 (홀수 비율)를 선택하여 베이지안 접근법을 시도했습니다. 이것은 때때로 '심하게'선택하지만 정확도는 49.5 % 나빠집니다. 또한 확률과 반올림에 의해 가중치가 부여 된 범주의 합계를 시도했습니다. 다시 말하지만, '심각한'선택은하지 않으며 정확도는 51.5 %입니다.

위의 정보를 취하여 최적의 정확도 (60.5 %)를 산출하는 방정식은 무엇입니까?

답변:


11

예측값을 분류해야하는 도약을하고 있습니다. 방법이 "심각한"범주를 선택하지 않는다는 사실은 문제의 불 연속적 특성의 결과이며 "심각한"경우는 드 in니다. 순서 반응 모형을 사용하면 초과 확률을 자체적으로 (하나의 범주를 제외한 모든 범주에 대해) 사용하거나 개별 확률을 인용 할 수 있습니다. 경우 대략 간격 조정됩니다 당신은 또한 예측 평균을 사용할 수 있습니다. 이것들은 모두 R 패키지 와 관련 기능으로 제공 됩니다. 많은 사람들은 실제로 위험 예측이 기본 목표 일 때 분류가 목표라고 가정합니다.Yrmslrmpredict.lrm


1
당신의 도움을 주셔서 감사합니다. 나는 낮은 주파수의 빈도가 문제의 일부라고 생각했다. 내 원시 Y, 0 1 2는 간격이 충분하지 않다고 생각합니다. 나는 나의 목표가 잘못되었다는 것을 수집한다. 불행하게도, 나는 생각 나는 새로운 환자가 완전히 내 목표는 이해하지 않습니다 /에 해당 무슨 종류 알고 싶어 해야 합니다. 좀 더 통찰력을 제공 할 수 있습니까? (실제로 저는 CV가 완전한 수업을위한 포럼이 아니라고 생각합니다. 또는이 문제에 대해 어디서 배울 수 있는지 알고 있습니까? Agresti의 Intro & Hosmer & Lemeshow의 Logistic 섹션을 읽었지만 아무 소용이 없습니다.)
gung-복원 모니카

1
목표는 필요한 결정 또는 주제에 의해 결정됩니다. 당신이 궁극적 인 목표를 언급한다면 나는 논평 할 수있을 것이다.
Frank Harrell

명확성이 부족하여 죄송합니다. 위의 문제이기도합니다. 현재 새로운 사례에 대한 결과를 예측할 수 있기를 원합니다. 장기적으로 ord log reg를 더 잘 이해하고 싶습니다. 예를 들어 범주를 예측하지 않으면 어떻게 잔차를 얻습니까? 정확도가 약간 향상되었지만, 얻는 방법을 모르겠습니다. 나는 당신이 모든 것을 설명 할 시간이 없다고 확신하지만, Agresti 나 H & L은 예측이나 잔차 등에 대해 아무 말도하지 않으며 구글에서 아무것도 찾을 수 없습니다. 그래서 나는 이력서에 물었다. 귀하의 지속적인 지원에 감사드립니다.
gung-복직 모니카

잔차에 대한 필요성을 설명하십시오. 이것들은 모델의 본질적인 부분이 아닙니다. 예측 상태를 나타내는 방법과 관련하여, 다양한 대한 가 좋은 방법이며, 임의의 결정이 필요하지 않은 예측 확률을 제공하십시오 . 예측 확률의 히스토그램을 보면 모형이 얼마나 유용한 지, 즉 0보다 1 또는 0.5에 가까운 결정적인 확률을 얼마나 자주 제공하는지 판단 할 수 있습니다. jYjj
Frank Harrell

-1

일치 성은 최대 점수가 아닌 평균 점수를 확인하여 정의됩니다.

따라서 귀하의 예에서 1의 평균 점수는 0 * 55.1 % + 1 * 35.8 % + 2 * 9.1 % = 0.54이며 2는 (유사한 계산을 통해) 0.826입니다.

일치 또는 다른 연관 통계를 얻기 위해 비교해야하는 것이이 값입니다.

참조-http: //support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm


3
아니요, 일치도는 원시 결과 변수 와 선형 예측 변수 또는 예측 된 확률 중 하나를 사용하여 계산됩니다 (모두가 서로 단조 적으로 관련되어 있기 때문에 즉, 종료 계산 전 인터셉트에 의해 이동 됨). Somers의 순위 상관 계수는이 일치 측정을 사용합니다. X β D x yYXβDxy
Frank Harrell

2
PS SAS PROC LOGIST몇 년 전에 필자가 작성한 전구체에 대한 원본 문서를 다시 쓴 SAS 설명서 는 이제 올바르지 않으며 가 연속 정수로 구성 되지 않으면 평균 공식이 잘못되었습니다 . Y
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.