이것은 내 동료들과 함께 연습이나 방법에 관한 질문입니다. 로지스틱 회귀 모델을 만드는 동안 사람들이 범주 형 변수 (또는 비닝되는 연속 형 변수)를 각각의 증거 가중치 (WoE)로 대체하는 것을 보았습니다. 이것은 회귀 변수와 종속 변수 사이의 단조로운 관계 를 설정하기 위해 수행됩니다 . 내가 이해하는 한 모델이 만들어지면 방정식의 변수는 데이터 세트의 변수가 아닙니다. 오히려, 방정식의 변수는 이제 종속 변수를 분리 할 때 변수 의 중요성 또는 가중치의 일종입니다 !
내 질문은 : 모델 또는 모델 계수를 어떻게 해석합니까? 예를 들어 다음 방정식의 경우 :
는 변수 의 1 단위 증가에 대한 홀수 비율 의 상대적 증가 라고 말할 수 있습니다 .x 1
그러나 변수가 WoE로 대체되면 해석은 변수의 IMPORTANCE / WEIGHT에서 1 단위 증가에 대한 홀수 비율의 상대적 증가 로 변경됩니다.
나는 인터넷 에서이 관행을 보았지만이 질문에 대한 답을 찾지 못했습니다. 이 커뮤니티 자체 의이 링크는 누군가가 쓴 다소 유사한 쿼리와 관련 이 있습니다 .
WoE는 로지스틱 회귀 분석의 종속 변수 인 승산 비의 자연 로그와 선형 관계를 표시합니다. 따라서 변수의 실제 값 대신 WoE를 사용하는 경우 로지스틱 회귀 분석에서 모델 오 사양 지정 문제가 발생하지 않습니다.
그러나 나는 여전히 설명을 얻지 못한다. 내가 잃어버린 것을 이해하도록 도와주세요.