로지스틱 회귀 분석에서 범주 형 예측 변수를 WOE 변환해야하는 이유는 무엇입니까?


10

범주 형 변수의 증거 가중치 (WOE) 변환은 언제 유용합니까?

이 예는 WOE 변환 에서 볼 수 있습니다

(따라서, 응답에 대한 ,와 범주 예측기 카테고리, 밖으로 성공 내의 시험 이 예측기의 범주 번째의 용 화가 번째 카테고리는 다음과 같이 정의된다ykyjnjjj

logyjjkyjjk(njyj)njyj

변환은 범주 형 예측 변수의 각 범주를 WOE로 코딩하여 새로운 연속 예측 변수를 구성합니다.)

WOE 변환이 로지스틱 회귀에 도움이되는 이유를 알고 싶습니다. 이것의 뒤에 이론은 무엇입니까?

답변:


6

연결하는 예에서 범주 형 예측 변수는 각 수준에 대해 해당 수준 에서 반응 의 관측 된 로그 확률 과 같은 값을 취하는 단일 연속 변수 (상수)로 표시됩니다.

logyjnjyj+logjk(njyj)jkyj

이 난독 화는 내가 생각할 수있는 목적을 전혀 제공하지 않습니다. 일반적인 더미 코딩을 사용하는 것과 동일한 예측 응답을 얻을 수 있습니다. 그러나 자유도가 잘못되어 모델에 대한 몇 가지 유용한 형태의 추론이 무효화됩니다.

다중 회귀 분석에서 여러 범주 형 예측 변수로 변환하여 한계 로그 확률을 사용하여 각각에 대한 WOE를 계산한다고 가정합니다. 예상 반응이 바뀔 것입니다. 그러나 조건부 로그 확률이 ​​한계 로그 확률의 선형 함수가 아닌 혼란이 고려되지 않기 때문에 개선이 필요하다고 생각할만한 이유가 없으며 추론적인 문제가 남아 있습니다.


WOE에서 왜 자유도가 잘못되었는지 설명 할 수 있습니까? 그것은 단지 변형 일까? 또한 여러 범주 형 변수가 있고 각각에 대해 WOE를 하나씩 얻는다면 어떻게 될까요? 내 경험에 따르면 범주 형 변수가 많은 경우 다른 변수 사이의 일부 버킷이 많이 겹치고 중요하지 않은 일부 계수가 보이기 시작합니다. 또한 여러 계수를 가지고 다녀야합니다.
adam

1
(1) 예측 변수와 반응의 관계를 평가하는 데 의존하는 변환-회귀에 맡겨야합니다. 예를 들어 우도 비율 검정 통계량은 변환이 사전 지정 될 때와 같은 분포를 갖지 않습니다. (2) 좋은 지적입니다! -WOE에 대한 다중 회귀는 모형이 포화되지 않는 한 더미 변수에 대한 회귀와 동일하지 않습니다. (3) 그래서 무엇? (4) 계수는 WOE보다 무겁지 않습니다.
Scortchi-Monica Monica 복원

WoE는 오늘날보다 많은 문제가있는 계산에서 남은 것 같습니다. 아마도 많은 수준의 범주 형 예측 변수를 사용하면 숫자 변수로 변환하는 것이 좋은 아이디어였습니다!
kjetil b halvorsen

1

증거 가중치 (WoE)를 사용한 거친 분류는 다음과 같은 이점이 있습니다. WoE는 로지스틱 회귀 분석의 종속 변수 인 승산 비의 자연 로그와 선형 관계를 표시합니다.
따라서 변수의 실제 값 대신 WoE를 사용하는 경우 로지스틱 회귀 분석에서 모델 오 사양 지정 문제가 발생하지 않습니다.

α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 )ln(p/1p) = + * + * + *αβWoE(Var1)γWoE(Var2)ηWoE(Var3)

출처 : PPT 중 하나에서 트레이너가 회사 교육 과정에서 보여줬습니다.


2
"변수의 실제 값 대신 WoE를 사용하는 경우 로지스틱 회귀 분석에서 모델 오 사양이 발생하지 않습니다." 이것을 수학적으로 설명 / 증명할 수 있습니까?
adam

저는 위험 분석 배경을 가지고 있지는 않지만이 책의 131,132 페이지는 books.google.co.in/…
Srikanth Guhan

또한이 링크는 동일하다고 주장하지만 수학은 설명되어 있지 않습니다 analyticbridge.com/forum/topics/…
Srikanth Guhan

1
링크에 감사하지만 WoE가 비례하는 한계 로그 확률이 ​​로지스틱 회귀와 관련된 조건부 로그 확률과 선형 관계가 있다는 것은 분명하지 않습니다. 다른 예측 변수와 혼동하면 WoE 순서 범주가 다르게 나타날 수도 있습니다.
Scortchi-Monica Monica 복원

1

WOE 변환은 정보를 추출하려는 값을 결합하고 결측해야하는 숫자 및 범주 형 데이터가 모두있을 때 도움이됩니다. 모든 것을 WOE로 변환하면 다양한 유형의 데이터 (결측 데이터까지 포함)를 동일한 로그 확률 스케일로 "표준화"하는 데 도움이됩니다. 이 블로그 게시물은 합리적으로 잘 설명되어 있습니다 : http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

WOE를 사용한 로지스틱 회귀는 SNBC (Semi-Nive Bayesian Classifier)라고해야합니다. 알고리즘을 이해하려는 경우 SNBC라는 이름이 훨씬 더 유익합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.