로짓의 선형성 위반에 대한 로지스틱 회귀의 견고성 조사


10

이진 결과 (시작 및 시작하지 않음)로 로지스틱 회귀 분석을 수행하고 있습니다. 필자의 예측 변수는 모두 연속적이거나 이분법적인 변수입니다.

Box-Tidwell 방식을 사용하면 연속 예측 변수 중 하나가 로짓의 선형성 가정을 위반할 가능성이 있습니다. 적합도 통계가 적합하다는 문제는 없습니다.

그런 다음 회귀 모델을 다시 실행하여 원래 연속 변수를 다음과 같이 대체했습니다. 첫 번째, 제곱근 변환과 두 번째로 변수의 이분법 버전입니다.

결과를 조사 할 때 적합도는 약간 향상되지만 잔차는 문제가되는 것으로 보입니다. 모수 추정치, 표준 오차 및 는 비교적 유사하게 유지됩니다. 데이터에 대한 해석은 3 가지 모델에서 내 가설 측면에서 변하지 않습니다.특급(β)

따라서 결과의 유용성과 데이터 해석의 관점에서 원래 연속 변수를 사용하여 회귀 모델을보고하는 것이 적절 해 보입니다.

나는 이것이 궁금하다.

  1. 로지스틱 회귀의 선형성에 대한 잠재적 위반에 대해 로지스틱 회귀는 언제 강력합니까?
  2. 위의 예에서 모델에 원래 연속 변수를 포함시키는 것이 허용되는 것 같습니다.
  3. 모형이 로짓의 선형성에 대한 잠재적 위반에 대해 강력하다는 점을 받아들이는 것이 좋을 때 추천 할만한 참고 자료 나 지침이 있습니까?

답변:


16

선형성 가정은 회귀 분석에서 일반적으로 위반되므로 가정 이라기보다는 놀람이라고 부릅니다. 다른 회귀 모형과 마찬가지로 로지스틱 모형은 선형성을 잘못 가정 할 때 비선형성에 강력 하지 않습니다 . 잔차 또는 옴니버스 적합도 테스트를 사용하여 비선형 성을 감지하는 대신 직접 테스트를 사용하는 것이 좋습니다. 예를 들어 회귀 스플라인을 사용하여 연속 예측 변수를 확장하고 모든 비선형 항에 대해 복합 검정을 수행하십시오. 여전히 용어를 테스트하지 않고 비선형 성을 기대하는 것이 좋습니다. 이 방법은 분자 자유도가 충분히 크지 않기 때문에 이러한 분석이 잘못된 후에 통계적 유추가 발생하기 때문에 제곱근, 로그 등과 같은 다른 단일 기울기 변환 선택을 시도하는 것보다 훨씬 좋습니다.

다음은 R의 예입니다.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests

당신의 대답은 환상적입니다-감사합니다! SPSS에서 사용할 구문을 제안 할 수 있습니까? 안타깝게도 R을 활용할 수있는 액세스 권한이 없습니다.
Short Elizabeth

1
R을 배우는 것은 확실히 가치가 있으며, 물류 모델링 및 rms 패키지와 관련된 많은 유인물이 있습니다. 이것은 SPSS에서하기 어려울 것입니다.
Frank Harrell 2016 년

@ FrankHarrell : f <- lrm(y ~ ...라인에 오류가 발생합니다 object 'y' not found-고칠 수 있습니까?
arielf

1
그것은 내 rms패키지에 고유하지 않은 매우 기본적인 R 오류 입니다. 기본 회귀 lm함수에 사용할 수있는 광범위한 재료로 시작하여 R에 대해 알아 가십시오 .
Frank Harrell

1
소프트웨어의 도움말 페이지에 내장 된 예제는 이러한 데이터를 시뮬레이트하므로 전체 예제를 맥락에서 살펴보십시오. 수행 require(rms)한 후 ?lrm다음examples(lrm)
프랭크 하렐에게
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.