이진 결과와 일부 공변량을 가진 데이터가 있습니다. 로지스틱 회귀를 사용하여 데이터를 모델링했습니다. 간단한 분석만으로도 특별한 것은 없습니다. 최종 결과는 특정 공변량에 대한 확률이 어떻게 변하는 지 보여주는 선량-반응 곡선이어야합니다. 이 같은:
우리는 로지스틱 회귀 분석을 선택한 내부 검토 자 (순수 통계 학자 아님)로부터 비판을 받았습니다. 로지스틱 회귀 분석은 확률 척도에서 S 자 곡선의 변곡점이 0.5 확률이라고 가정합니다. 그는 변곡점이 실제로 0.5 일 확률을 가정 할 이유가 없으며 실제 위치가 데이터 중심이되도록 변곡점이 변할 수있는 다른 회귀 모델을 선택해야한다고 주장했다.
처음에 나는이 점에 대해 전혀 생각하지 않았기 때문에 그의 주장에 사로 잡혔다. 변곡점이 0.5라고 가정하는 것이 정당한 이유에 대해서는 아무런 주장도 없었습니다. 몇 가지 연구를 한 후에도 여전히이 질문에 대한 답변이 없습니다.
변곡점이 추가 매개 변수 인 5 매개 변수 로지스틱 회귀 분석을 보았지만이 회귀 모델은 일반적으로 연속적인 결과로 용량 반응 곡선을 생성 할 때 사용되는 것으로 보입니다. 이진 응답 변수로 확장 될 수 있는지 확실하지 않습니다.
내 주요 질문은 로지스틱 회귀의 변곡점이 0.5에 있다고 가정하는 것이 왜 또는 언제인지 추측하는 것입니다. 중요합니까? 나는 로지스틱 회귀 모델에 적합하고 변곡점의 문제를 명시 적으로 논의하는 사람을 본 적이 없다. 변곡점이 반드시 0.5가 아닌 선량 반응 곡선을 만드는 대안이 있습니까?
완전성을 위해 위의 그림을 생성하는 R 코드 :
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
편집 1 :
Scortchi의 의견 중 하나에 덧붙여 말하면, 검토자는 실제로 생물학적으로 곡률의 변화가 0.5보다 일찍 발생할 가능성이 더 높다고 주장했습니다. 따라서 변곡점이 0.5라고 가정하는 것에 대한 그의 저항.
편집 2 :
Frank Harrell의 논평에 대한 반응으로 :
예를 들어, 위의 모델을 2 차 및 3 차 항 gre
(이 예에서는 "투약량")으로 포함하도록 수정했습니다.
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
gre
이 경우 2 차 및 3 차 항 을 추가하는 것이 의미가 없을 수도 있지만 , 용량-반응 곡선의 형태가 변경되었음을 알 수 있습니다. 실제로 우리는 약 0.25에서 0.7 근처에 두 개의 변곡점이 있습니다.