로지스틱 회귀 분석에서 연속 독립 변수에 대해 로짓에 대한 선형성의 가정을 어떻게 확인해야합니까?


13

로지스틱 회귀 분석에서 연속 예측 변수에 대한 로짓에 대한 선형성의 가정과 혼동됩니다. 일 변량 로지스틱 회귀 분석을 사용하여 잠재적 예측 변수를 스크리닝하는 동안 선형 관계를 확인해야합니까?

제 경우에는 다중 로지스틱 회귀 분석을 사용하여 참가자의 영양 상태 (이 분적 결과)와 관련된 요인을 식별하고 있습니다. 연령, Charlson 동 반성 점수, Barthel 지수 점수, 손 그립 강도, GDS 점수, BMI 등을 포함한 연속 변수입니다. 첫 번째 단계는 간단한 로지스틱 회귀 분석을 사용하여 중요한 변수를 선별하는 것입니다. 각 연속 변수에 대한 간단한 로지스틱 회귀 분석 동안 선형성 가정을 확인해야합니까? 아니면 최종 다중 로지스틱 회귀 모델에서 확인해야합니까?

또한 이해를 위해 비선형 연속 변수를 모델에 입력하기 전에 변환해야합니다. 변환 대신 비선형 연속 변수를 분류 할 수 있습니까?


1
당신은해야 하지 스플라인을 시도하는 것이 좋습니다, 분류!
kjetil b halvorsen

답변:


11

필자의 저서 회귀 모델링 전략 에 자세히 설명 된대로 (2015 년 2 월판, 전자 책 사용 가능) 전에 변수를 변환하는 과정에는 문제가 있습니다. 왜냐하면 왜곡이 가장 중요합니다 유형 1 오류 및 신뢰 구간. 분류는 더욱 심각한 문제, 특히 적합 부족 및 임의성 문제를 유발합니다.

이것을 "적합 부족 검사"문제로 생각하는 대신, 적합 할 가능성이 큰 모델을 지정하는 것으로 생각하는 것이 좋습니다. 이를 수행하는 한 가지 방법은 강력 할 가능성이 있고 선형성이 아직 합리적인 가정으로 알려지지 않은 모델 부분에 매개 변수를 할당하는 것입니다. 이 과정에서 유효 샘플 크기 (귀하의 경우 최소 이벤트 수 및 비 이벤트 수)를 검사하고 데이터의 정보 내용이 허용하는 한도 내에서 복잡성을 허용합니다 (예 : 15 : 1 이벤트 사용) : 엄지 손가락). 유연한 부가 파라 메트릭 모델을 미리 지정하면 중요한 상호 작용을 생략하여 중요한 경우에만 잘못된 것입니다. 상호 작용은 일반적으로 말해서 미리 지정해야합니다.

공식 테스트를 통해 모델에 비선형 성이 필요한지 여부를 확인할 수 있습니다 (R rms 패키지 있지만, 중요하지 않은 경우 이러한 항을 제거하면 위에서 설명한 유추 왜곡이 발생합니다.

자세한 내용은 http://biostat.mc.vanderbilt.edu/rms 에서 링크 된 과정 노트에서 확인할 수 있습니다 .


앞서 언급하지 못해서 죄송하지만 R에 익숙하지 않으며 분석에 SPSS를 사용하고있었습니다. 제공된 솔루션에서 유효 샘플 크기 (15 : 1)를 사용하면 선형성을 확인하지 않고 모든 중요한 요소 (검토에서)를 포함 할 수 있습니까?
Sze Lin Tan

필자의 경우에 수행 한 일 변량 로지스틱 회귀 분석에서 BMI, 종아리 둘레, 상반신 둘레는 모두 영양 상태의 간단한 로지스틱 회귀 모델에 크게 기여하고 있습니다 (p <0.05). 그러나 Box-Tidwell 접근법을 사용하여 가정을 확인할 때 (각각의 간단한 물류 모델에 대해) 선형성 가정을 충족하지 않는 것으로 나타났습니다. 따라서이 예측 변수로 다중 로지스틱 회귀 분석을 진행 해야하는지 확실하지 않습니다.
Sze Lin Tan

5
단 변량 분석을 기반으로 모델을 작성하는 것은 유효하지 않습니다. 변형을 사용하여 많은 문제를 일으키는 것으로 알려진 단계적 회귀를 전달합니다.
Frank Harrell 13:30에

8

로지스틱 회귀 분석은 종속 변수와 독립 변수 간의 선형 관계를 가정하지 않습니다. 종속 변수의 로그 확률과 독립 변수 사이의 선형 관계를 가정합니다 (주로 연속 독립 변수의 문제입니다).이를 위해 사용할 수있는 Box-Tidwell이라는 테스트가 있습니다. stata 명령은 boxtid입니다. SPSS 명령을 모르겠습니다. 죄송합니다.

도움이 될 수 있습니다-http: //www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm


링크가 끊어졌습니다.
Alexey Shrub

1

회귀 모델에서 변수를 사용하기 전에 연속 변수를 플로팅하고 선형성을 확인해야한다고 생각합니다. 선형성이 합리적인 가정처럼 보인다면, 이것이 대부분의 경우 최종 다 변수 회귀 모델에서 계속 유지 될 것이라고 생각합니다. 그렇지 않은 경우, 이는 주로 수정할 수있는 교호 작용 효과로 인해 발생할 수 있다고 생각합니다.

예, 비선형 연속 변수를 분류하는 것이 하나의 옵션입니다. 이것의 문제점은 대부분의 경우 카테고리가 임의의 것처럼 보일 수 있고 카테고리 간 컷오프 점수의 작은 차이로 인해 결과 (특히 통계적 유의성에 따라)가 달라질 수 있으며 카테고리 수와 데이터 크기에 따라 데이터에서 중요한 정보가 많이 손실 될 수 있습니다.

다른 방법은 로지스틱 회귀로 지정할 수 있지만 회귀없는 독립 변수를 "스모 더 함수"로 포함 할 수있는 회귀 모델 인 일반화 된 가산 모형을 사용하는 것입니다. 기술적으로 R에서는 그다지 복잡하지 않지만 다른 소프트웨어 패키지에 대해서는 모르겠습니다. 이러한 모델은 종속 변수에 대한 비선형 관계를 식별하지만 출력에 제시 할 깔끔하고 깔끔한 숫자가 아니라 통계적 유의성에 대해 테스트 된 시각적 곡선을 얻을 수 있다는 단점이 있습니다. 따라서 비선형 변수가 결과 변수에 미치는 영향을 정량화하는 데 얼마나 관심이 있는지에 달려 있습니다.

마지막으로, 적어도 R을 사용하는 경우 위에서 설명한대로 일반화 된 가산 모형을 사용하여 로지스틱 회귀 모델에서 선형성의 가정을 테스트 할 수 있습니다.

이 책을 살펴보십시오 (귀하의 것과는 매우 다른 분야이지만 전혀 중요하지 않습니다) : http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1440928328 & sr = 8-1 & keywords = zuur + ecology


R에 익숙하지 않으며 분석에 SPSS를 사용하고있었습니다. 앞서 언급하지 않아서 죄송합니다. 연속성 변수와 자체 고유 로그 사이의 교호 작용 항을 작성하고 모형에 교호 작용 항을 추가하여 Box-Tidwell 접근법을 사용하여 선형성 가정을 확인할 수 있습니까?
Sze Lin Tan

1

데이터를 알지 못하므로 기본 변수, 자연 로그 및 대화 형이라는 세 가지 변수를 결합하는 것이 문제가 될지 모르겠습니다. 그러나 과거에 세 용어를 결합하는 것을 고려했을 때 종종 내가 측정하는 것에 대한 개념적 추적을 잃어 버리는 것을 알고 있습니다. 측정 대상을 잘 다룰 필요가 있거나 결과를 설명하는 데 어려움이있을 수 있습니다. 희망이 도움이됩니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.