큰 설문 조사 데이터, 이진 결과 변수 및 이진 및 연속을 포함한 많은 설명 변수가 있습니다. 모델 세트를 구축하고 (GLM과 혼합 GLM을 모두 사용하여 실험) 정보 이론적 접근 방식을 사용하여 최상위 모델을 선택합니다. 상관 관계에 대한 설명 (연속적 및 범주 적)에 대한 설명을주의 깊게 검사했으며 피어슨 또는 피 코르 계수가 0.3 미만인 동일한 모델에서만 사용하고 있습니다. 저는 모든 연속 변수를 최고의 모델과 경쟁 할 수있는 기회를주고 싶습니다. 필자의 경험에 따르면, 기울 이기에 따라 필요한 것을 변형하면 참여하는 모델이 향상됩니다 (낮은 AIC).
첫 번째 질문은 : 변환이 로짓과의 선형성을 향상시키기 때문에이 개선입니까? 또는 왜곡을 수정하면 데이터를보다 대칭 적으로 만들어 설명 변수의 균형을 향상시킬 수 있습니까? 나는 이것의 수학적 이유를 이해하기를 원하지만, 누군가가 이것을 쉽게 설명 할 수 있다면, 그것은 좋을 것입니다. 내가 사용할 수있는 참조가 있다면 정말 감사하겠습니다.
많은 인터넷 사이트에서는 이항 로지스틱 회귀 분석에서 정규성은 가정이 아니므로 변수를 변환하지 마십시오. 그러나 내 변수를 변환하지 않으면 다른 변수와 비교하여 불리한 점이 있으며 상위 모델이 무엇인지에 영향을 줄 수 있으며 추론을 변경할 수 있습니다 (일반적으로 그렇지 않지만 일부 데이터 세트에서는). 내 변수 중 일부는 로그 변환시 더 나은 성능을, 일부는 제곱 (다른 기울기 방향) 및 일부는 변형되지 않은 경우 더 잘 수행됩니다.
로지스틱 회귀 분석을 위해 설명 변수를 변환 할 때주의해야 할 사항과 지침을 제공 할 수 있습니까?