답변:
연결하는 예에서 범주 형 예측 변수는 각 수준에 대해 해당 수준 에서 반응 의 관측 된 로그 확률 과 같은 값을 취하는 단일 연속 변수 (상수)로 표시됩니다.
이 난독 화는 내가 생각할 수있는 목적을 전혀 제공하지 않습니다. 일반적인 더미 코딩을 사용하는 것과 동일한 예측 응답을 얻을 수 있습니다. 그러나 자유도가 잘못되어 모델에 대한 몇 가지 유용한 형태의 추론이 무효화됩니다.
다중 회귀 분석에서 여러 범주 형 예측 변수로 변환하여 한계 로그 확률을 사용하여 각각에 대한 WOE를 계산한다고 가정합니다. 예상 반응이 바뀔 것입니다. 그러나 조건부 로그 확률이 한계 로그 확률의 선형 함수가 아닌 혼란이 고려되지 않기 때문에 개선이 필요하다고 생각할만한 이유가 없으며 추론적인 문제가 남아 있습니다.
증거 가중치 (WoE)를 사용한 거친 분류는 다음과 같은 이점이 있습니다. WoE는 로지스틱 회귀 분석의 종속 변수 인 승산 비의 자연 로그와 선형 관계를 표시합니다.
따라서 변수의 실제 값 대신 WoE를 사용하는 경우 로지스틱 회귀 분석에서 모델 오 사양 지정 문제가 발생하지 않습니다.
α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 ) = + * + * + *
출처 : PPT 중 하나에서 트레이너가 회사 교육 과정에서 보여줬습니다.
WOE 변환은 정보를 추출하려는 값을 결합하고 결측해야하는 숫자 및 범주 형 데이터가 모두있을 때 도움이됩니다. 모든 것을 WOE로 변환하면 다양한 유형의 데이터 (결측 데이터까지 포함)를 동일한 로그 확률 스케일로 "표준화"하는 데 도움이됩니다. 이 블로그 게시물은 합리적으로 잘 설명되어 있습니다 : http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
WOE를 사용한 로지스틱 회귀는 SNBC (Semi-Nive Bayesian Classifier)라고해야합니다. 알고리즘을 이해하려는 경우 SNBC라는 이름이 훨씬 더 유익합니다.