로지스틱 회귀 및 변곡점


11

이진 결과와 일부 공변량을 가진 데이터가 있습니다. 로지스틱 회귀를 사용하여 데이터를 모델링했습니다. 간단한 분석만으로도 특별한 것은 없습니다. 최종 결과는 특정 공변량에 대한 확률이 어떻게 변하는 지 보여주는 선량-반응 곡선이어야합니다. 이 같은:

여기에 이미지 설명을 입력하십시오

우리는 로지스틱 회귀 분석을 선택한 내부 검토 자 (순수 통계 학자 아님)로부터 비판을 받았습니다. 로지스틱 회귀 분석은 확률 척도에서 S 자 곡선의 변곡점이 0.5 확률이라고 가정합니다. 그는 변곡점이 실제로 0.5 일 확률을 가정 할 이유가 없으며 실제 위치가 데이터 중심이되도록 변곡점이 변할 수있는 다른 회귀 모델을 선택해야한다고 주장했다.

처음에 나는이 점에 대해 전혀 생각하지 않았기 때문에 그의 주장에 사로 잡혔다. 변곡점이 0.5라고 가정하는 것이 정당한 이유에 대해서는 아무런 주장도 없었습니다. 몇 가지 연구를 한 후에도 여전히이 질문에 대한 답변이 없습니다.

변곡점이 추가 매개 변수 인 5 매개 변수 로지스틱 회귀 분석을 보았지만이 회귀 모델은 일반적으로 연속적인 결과로 용량 반응 곡선을 생성 할 때 사용되는 것으로 보입니다. 이진 응답 변수로 확장 될 수 있는지 확실하지 않습니다.

내 주요 질문은 로지스틱 회귀의 변곡점이 0.5에 있다고 가정하는 것이 왜 또는 언제인지 추측하는 것입니다. 중요합니까? 나는 로지스틱 회귀 모델에 적합하고 변곡점의 문제를 명시 적으로 논의하는 사람을 본 적이 없다. 변곡점이 반드시 0.5가 아닌 선량 반응 곡선을 만드는 대안이 있습니까?

완전성을 위해 위의 그림을 생성하는 R 코드 :

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

편집 1 :

Scortchi의 의견 중 하나에 덧붙여 말하면, 검토자는 실제로 생물학적으로 곡률의 변화가 0.5보다 일찍 발생할 가능성이 더 높다고 주장했습니다. 따라서 변곡점이 0.5라고 가정하는 것에 대한 그의 저항.

편집 2 :

Frank Harrell의 논평에 대한 반응으로 :

예를 들어, 위의 모델을 2 차 및 3 차 항 gre(이 예에서는 "투약량")으로 포함하도록 수정했습니다.

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

여기에 이미지 설명을 입력하십시오

gre이 경우 2 차 및 3 차 항 을 추가하는 것이 의미가 없을 수도 있지만 , 용량-반응 곡선의 형태가 변경되었음을 알 수 있습니다. 실제로 우리는 약 0.25에서 0.7 근처에 두 개의 변곡점이 있습니다.


2
그것은 반응의 로그 확률에 대한 예측 변수의 비선형 관계를 조사하도록 요구하는 것과 동일하지 않습니까?
Scortchi-Monica Monica 복원

답변:


8

@scortchi가 언급 한 바와 같이, 검토자는 로지스틱 회귀의 맥락에서 예측 척도의 로짓 척도에 대한 비선형 효과를 모델링 할 수 없다는 잘못된 인상을 받고 조작하고있었습니다. 원래 모델은 모든 예측 변수의 선형성을 빠르게 가정했습니다. 예를 들어 제한된 입방 스플라인 (자연 스플라인)을 사용하여 선형성 가정을 완화함으로써 곡선의 전체 모양이 유연하고 변곡점이 더 이상 문제가되지 않습니다. 단일 예측 변수가 있고 회귀 스플라인을 사용하여 확장 한 경우 로지스틱 모델은 관측의 부드러움과 독립성 만 가정한다고 말할 수 있습니다.


스플라인 회귀에 익숙하지 않다는 것을 인정해야합니다. 로지스틱 회귀와 함께이 작업을 수행하는 방법은 무엇입니까 (R). 예측 변수에 다항식 항을 포함하도록 원래 게시물 (편집 2)을 수정했습니다. 스플라인 스무딩의 대안으로 이것을 사용할 수 있습니까? 물론 스플라인과 같은 유연성을 가지고 있지 않습니다.
Francis

1
@Franco : Frank Harrell의 고유 한 회귀 모델링 전략 ( , 웹 사이트 , R 패키지)을 사용하십시오 . 회귀 스플라인의 장점에 대한 간단한 설명이 여기 있습니다 . 그러나 다항식이 대안 일 것입니다.
Scortchi-Monica Monica 복원

4

리뷰어가 방금 할 말을 찾고있는 것 같습니다. 묵시적 변곡점과 같은 사양의 같은 기능을 검사하기 전에,이 우리가 추정 할 모델에 도착하기 위해 만든 것으로 가정은. 로지스틱 함수의 사용이 가능한 주요 목표가되는 것은 모두 의문의 대상이되고 논쟁의 대상이 될 수 있습니다. 아무도

문제는 곡률의 변화가 무엇을 의미합니까? 연구중인 실제 현상에서이 곡률의 ​​변화가 발생하는 시점이 얼마나 중요한지,이를 "데이터 중심"으로 만드는 것을 고려할 수 있습니까? parsimony의 원칙에서 더 멀리 나아가고 있습니까?

문제는 "왜 변곡점이 0.5 여야합니까?"가 아닙니다. 그러나 "우리의 결론이 0.5로 남으면 어떻게 오도 할 수 있을까?"


2
조금 끔찍한 것 같습니다. 우리는 검토자가 다른 사람이 아니라이 가정에 이의를 제기 할만한 충분한 이유가 없다는 것을 모릅니다. 변곡점과 로지스틱 회귀에 대한 오해의 관점에서 그것을 이상한 방법으로 두십시오. 그는 기본적으로 모델이 왜 곡선을 이동 및 확장하지만 굽히지 않도록 허용하는지 묻는 것입니다. 이는 대답을받을 가치가 있습니다.
Scortchi-Monica Monica 복원

@Scortchi "이상한 방법으로 넣는 것"... "로지스틱 회귀에 대한 오해의 가능성"... 이것이 검토 자의 비판을 합리화하는 데 필요한 것이라면, 그는 논문을 전혀 검토하지 않았어야합니다.
Alecos Papadopoulos 14시 58 분

1
@ Scortchi와 마찬가지로 나는 이것을 너무 날카로웠다. 여기에서 더 활동적인 많은 사람들은 주류 통계보다는 다양한 과학에 대한 배경을 가지고 있습니다. 순수하거나 다른 통계학자가되는 것은 좋은 조언을하기에 필수적이거나 충분하지 않습니다 (거의 모든 경우에 분명히 도움이 될지라도).
닉 콕스

@Nick Cox 나는 "날카로움"을 받아들이고, 나는 마지막 문장을 합의의 표시로 삭제했다. 내 요점은 모델의 가정에 가치가 없다는 일반적인 방법으로 의문을 제기한다는 것입니다. 모델은 항상 거짓입니다. 따라서 곡률 변화의 가능성이 연구중인 실제 현상에 어떤 식 으로든 중요하다면, 검토자는이 점이 데이터 중심이되어야한다고 요구하는 것이 옳았습니다. 그러나 검토자가 방금 "p = 0.5에서 다른 곳이 아닌 이유"라고 언급 한 경우이 의견은 건설적인 것이 아닙니다.
Alecos Papadopoulos

2
고마워 나는 귀하의 일반적인 입장에 동의합니다 : (a) 다양한 접근 방식의 장점에 대한 토론 및 (b) 이들에 대해 논의해야하는 방법에 대한 토론은 공정한 게임입니다. 개인이나 그룹에 대한 의견은 일반적으로 도움이되지는 않습니다 (나도 때때로 분노에 빠져 있습니다.).
닉 콕스

0

mho에서 로짓 회귀는 용량 반응에 대한 합리적인 선택입니다. 물론 probit, log-log, c-log-log 링크를 사용하고 적합도 (DEV, BIC, CAIC 등)를 비교할 수 있습니다. 그러나 가장 간단한 로짓 회귀 분석은 변곡점 LD50 = -b0 / b1에 대한 편안한 공식 평가를 제공합니다. 우리는 그것이 우리가 최소한의 불확실성을 얻는 특정 시점이라는 것을 기억합니다 (참조 : LD16, LD84 및 다른 모든 사람들은 더 넓은 CI를 가질 것입니다, Finney의 "Probit analysis", 1947, 1977 참조). 항상 (?) 선량의 로그를 사용하고 95 % CI를 원래 척도로 변환하는 것이 더 낫습니다. 모델에서 다른 공변량의 특성은 무엇입니까? 나는 다중 모델 접근법을 사용할 가능성을 암시합니다. ... 스플라인은 유연하지만 공식적인 파라 메트릭은 더 쉽게 해석됩니다!

참조 http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm를


0

0.5 변곡점은 더 큰 문제의 작은 부분입니다. 로지스틱 방정식은 구조 대칭입니다. 그리고 그것의 대부분의 파생에서, 모델링 된 효과는 대칭이 될 이유가 있습니다. 예를 들어 한 플레이어가 이기면 다른 플레이어가 잃거나 채도를 담당하는 효과는 초기 성장을 담당하는 동일한 물리적 효과 등입니다. 따라서 낮은 X 동작의 출처가 동일한 출처 인 이유가있는 경우 손이 거칠거나 다른 어떤 이유로 든 문제가 대칭 적이라면 당신은 정당성을 갖습니다.

그렇지 않다면 아마도 다음으로 가장 간단한 모델은 일반화 된 로지스틱 방정식입니다. 더 많은 매개 변수가 있으며 제약 조건을 추가하여 모두 사용 가능한 매개 변수가 아닌 것이 좋습니다. 이것은 아마도 여러분이 추가 한 kludge보다 더 바람직 할 것입니다. 왜냐하면 그것들은 첫번째 미분이 앞뒤로 진동하는 곳에 선반을 추가하기 때문입니다. 분포. 일반화 형태는 대칭을 깨뜨리지 만 매끄럽게합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.