로지스틱 회귀 분석을위한 연속 변수 변환


11

큰 설문 조사 데이터, 이진 결과 변수 및 이진 및 연속을 포함한 많은 설명 변수가 있습니다. 모델 세트를 구축하고 (GLM과 혼합 GLM을 모두 사용하여 실험) 정보 이론적 접근 방식을 사용하여 최상위 모델을 선택합니다. 상관 관계에 대한 설명 (연속적 및 범주 적)에 대한 설명을주의 깊게 검사했으며 피어슨 또는 피 코르 계수가 0.3 미만인 동일한 모델에서만 사용하고 있습니다. 저는 모든 연속 변수를 최고의 모델과 경쟁 할 수있는 기회를주고 싶습니다. 필자의 경험에 따르면, 기울 이기에 따라 필요한 것을 변형하면 참여하는 모델이 향상됩니다 (낮은 AIC).

첫 번째 질문은 : 변환이 로짓과의 선형성을 향상시키기 때문에이 개선입니까? 또는 왜곡을 수정하면 데이터를보다 대칭 적으로 만들어 설명 변수의 균형을 향상시킬 수 있습니까? 나는 이것의 수학적 이유를 이해하기를 원하지만, 누군가가 이것을 쉽게 설명 할 수 있다면, 그것은 좋을 것입니다. 내가 사용할 수있는 참조가 있다면 정말 감사하겠습니다.

많은 인터넷 사이트에서는 이항 로지스틱 회귀 분석에서 정규성은 가정이 아니므로 변수를 변환하지 마십시오. 그러나 내 변수를 변환하지 않으면 다른 변수와 비교하여 불리한 점이 있으며 상위 모델이 무엇인지에 영향을 줄 수 있으며 추론을 변경할 수 있습니다 (일반적으로 그렇지 않지만 일부 데이터 세트에서는). 내 변수 중 일부는 로그 변환시 더 나은 성능을, 일부는 제곱 (다른 기울기 방향) 및 일부는 변형되지 않은 경우 더 잘 수행됩니다.

로지스틱 회귀 분석을 위해 설명 변수를 변환 할 때주의해야 할 사항과 지침을 제공 할 수 있습니까?


2
FF110P(Y=1|β,X)=F(Xβ)이 논문 .

다른 맥락에서 작성되었지만, 당신이 요구하는 것의 대부분은 내 대답 (또는 내 대답의 링크)에 있습니다 : 정규 분포 X와 Y는 정규 분포 잔차를 초래할 가능성이 더 큽니까?
gung-복원 Monica Monica

답변:


3

xlog(x)

"대형 데이터"가 있다고 말하면 스플라인을 조사하여 데이터에 변환에 대해 이야기 할 수 있습니다 (예 : R의 패키지 mgcv). 그러나 이러한 기술 (또는 자동으로 변환을 검색하는 다른 방법)을 사용하여 궁극적 인 시험은 과학적인 것이 무엇인지 스스로에게 묻는 입니다. ¿ 현장의 다른 사람들이 비슷한 데이터로 무엇을합니까?


걱정을 해주셔서 감사합니다. 실제로 생물학적 의미가 무엇인지 알고 있습니다. 문제는 실제로 두 개의 관련 데이터 세트가 있고 동시에 두 가지 모두에서 결론을 내리고 싶다는 것입니다. 그러나 한 하위 집합에서 밀도 변수는 변환되지 않은 모델에서 가장 좋으며 다른 로그 변환에서는 가장 좋습니다. 로그 변환은 해당 변수에 대해 더 낮은 값을 갖는 데이터 세트의 관계를 개선하므로 변수를 둘 다 변환하지 않은 상태로 두지 않으면 내가 생각하는이 두 데이터 세트를 조정하는 것이 매우 어렵습니다.
Zsuzsa

1
한 분야의 전문가들은 변수에 대한 "올바른"변형을 미리 알 수있는 경우가 거의 없습니다. 나는 선형 관계를 거의 보지 못하므로 표본 크기가 필요할 때 회귀 스플라인을 사용 하여이 가정을 완화합니다. 결과를 그림으로 해석 할 수있게 만듭니다.
Frank Harrell

3

중요한 문제는 실제 세계에서 숫자로 표현해야하는 숫자와 해당 변수와 종속 변수 간의 가정 된 관계입니다. 데이터를 '정리'하여 모델을 개선 할 수 있지만 실제 세계를 더 잘 반영하지 못하면 성공하지 못한 것입니다. 데이터 분포가 모델링 접근 방식이 잘못되었다는 의미 일 수 있으며 데이터 접근에 문제가있을 수있는 다른 접근 방식이 필요할 수 있습니다.

변수가 corr> .3 이상인 경우 왜 변수를 제거합니까? 아마도 그것들은 실제로 관련이 있고 둘 다 종속 변수에 중요합니다. 상관 변수의 공동 기여를 나타내는 인덱스 또는 함수로이를 처리 할 수 ​​있습니다. 임의의 통계 기준에 따라 정보를 맹목적으로 버리고있는 것 같습니다. corr> .31 또는 .33을 사용하지 않는 이유는 무엇입니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.