로지스틱 회귀 분석에서 WoE (증거의 무게)로 변수 바꾸기


14

이것은 내 동료들과 함께 연습이나 방법에 관한 질문입니다. 로지스틱 회귀 모델을 만드는 동안 사람들이 범주 형 변수 (또는 비닝되는 연속 형 변수)를 각각의 증거 가중치 (WoE)로 대체하는 것을 보았습니다. 이것은 회귀 변수와 종속 변수 사이의 단조로운 관계 를 설정하기 위해 수행됩니다 . 내가 이해하는 한 모델이 만들어지면 방정식의 변수는 데이터 세트의 변수가 아닙니다. 오히려, 방정식의 변수는 이제 종속 변수를 분리 할 때 변수중요성 또는 가중치의 일종입니다 !

내 질문은 : 모델 또는 모델 계수를 어떻게 해석합니까? 예를 들어 다음 방정식의 경우 :

log(p1p)=β0+β1x1

변수 의 1 단위 증가에 대한 홀수 비율상대적 증가 라고 말할 수 있습니다 .x 1exp(β1) x1

그러나 변수가 WoE로 대체되면 해석은 변수의 IMPORTANCE / WEIGHT에서 1 단위 증가에 대한 홀수 비율의 상대적 증가 로 변경됩니다.

나는 인터넷 에서이 관행을 보았지만이 질문에 대한 답을 찾지 못했습니다. 이 커뮤니티 자체 의이 링크는 누군가가 쓴 다소 유사한 쿼리와 관련 이 있습니다 .

WoE는 로지스틱 회귀 분석의 종속 변수 인 승산 비의 자연 로그와 선형 관계를 표시합니다. 따라서 변수의 실제 값 대신 WoE를 사용하는 경우 로지스틱 회귀 분석에서 모델 오 사양 지정 문제가 발생하지 않습니다.

그러나 나는 여전히 설명을 얻지 못한다. 내가 잃어버린 것을 이해하도록 도와주세요.


x 1 x 1exp(β1) 에 / 1 개 단위 증가 승 연관된 교차비이다 아닌 " 상대적 증가 에 / 1 개 단위 증가 승 연관된 교차비 ". x1x1
gung-복직 모니카

아니. 을 제거하려면 분명히 지수화 후 LHS 비율을 β0
가져와야

확률은 p / (1-p)이므로 p (x) = exp (𝛽0 + 𝛽1x)이고 p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) 인 경우 p (x + 1) = exp stats.stackexchange.com/users/7290/gung
hwrd

답변:


12

WoE 방법은 다음 두 단계로 구성됩니다.

1-(연속) 변수를 몇 개의 범주로 분할하거나 (이산) 변수를 몇 개의 범주로 그룹화 (두 경우 모두 한 범주의 모든 관측치가 종속 변수에 "동일한"영향을 미치는 것으로 가정)
2-WoE 계산 각 카테고리의 값 (원래 x 값은 WoE 값으로 대체 됨)

WoE 변환에는 최소한 세 가지 긍정적 인 효과가 있습니다.
1) 독립 변수를 변환하여 종속 변수와의 단조로운 관계를 설정할 수 있습니다. 실제로 이보다 더 많은 작업을 수행합니다. 단조로운 관계를 유지하려면 순서가 지정된 측정 값 (예 : 1,2,3,4 ...)으로 "코딩"하는 것으로 충분하지만 WoE 변환은 실제로 "물류" "로지스틱 회귀 분석에 자연스러운 척도입니다.
2) 너무 많은 (작게 채워진) 불연속 값이있는 변수의 경우 이러한 값을 범주로 그룹화 할 수 있으며 (밀도가 높은) WoE를 사용하여 전체 범주에 대한 정보를 표현할 수 있습니다
3) 종속 변수에 대한 각 범주의 (단 변량) 효과는 WoE가 표준화 된 값이기 때문에 범주와 변수간에 간단히 비교할 수 있습니다 (예 : 결혼 한 사람의 WoE와 육체 노동자의 WoE를 비교할 수 있음)

또한 최소한 세 가지 단점이 있습니다.
1) 몇 가지 범주로 비닝으로 인한 정보 손실 (변이)
2) "단 변량"측정 값이므로 독립 변수 간의 상관 관계를 고려하지 않습니다.
3) 카테고리 생성 방식에 따라 변수의 효과를 조작 (과적 합)

일반적으로 회귀 베타 (x는 WoE로 대체 됨)는 해석되지 않지만 WoE와 곱하여 "점수"를 얻습니다 (예 : 변수 "결혼 상태"에 대한 베타는 WoE와 곱할 수 있음). 결혼 한 사람들의 점수를 볼 수있는 "결혼 한 사람들"그룹; 가변적 인 "직업"에 대한 베타에 "수동 노동자"의 WoE를 곱하여 육체 노동자의 점수를 볼 수 있습니다. 그런 다음 결혼 한 육체 노동자의 점수에 관심이 있다면 이 두 점수를 요약하고 결과에 미치는 영향을 확인하십시오.) 점수가 높을수록 결과의 확률은 1과 같습니다.


1
(+1) 반응과 단조로운 관계를 갖도록 예측 변수를 다시 코딩하는 것이 유리한 이유는 무엇입니까?
Scortchi-Monica Monica 복원

1
@Scortchi 나는 예를 생각할 수 있습니다-독립 변수는 사람들의 신장 (cm 단위), 사람들은 멋진 옷을 사러 가고 있습니다. 종속 변수는 바이너리 이벤트 일 것입니다-적합하고 편안한 옷을 살 수 있는지 여부입니다. 매우 작고 키가 큰 사람들은 적절한 옷을 사는 데 어려움을 겪는 반면 중간 사람들은 쉽게 옷을 살 수 있습니다. 간단한 (상호 작용없이 변형없이) 회귀를 사용하면 적절한 옷을 구입할 확률이 사람들의 키에 따라 증가하거나 감소한다는 모형 만 만들 수 있습니다
King Solomon 's Horse

1
사람들은 일반적으로 경험적 모델링이 아닌 예측 자의 비단 조적 변환을 사용하지 않습니다. 상호 작용을 포함하면 다른 예측 변수를 포함 할 수있는 조건부 비단 조 관계를 제거하거나 도입 할 수 있습니다. 그러나 다항식 또는 스플라인 기반 함수를 사용하여 예측 변수를 나타내는 것은이를 허용하는 간단한 방법입니다. 또 다른 하나는 그것을 비닝하고 따라서 참조 레벨 코딩을 사용하여 그것을 범주 형으로 취급합니다. 마지막은이 WoE 변환보다 훨씬 간단합니다. 아무도에게 해를 끼치 지 않습니다 ...
Scortchi-복원 모니카

1
... 반응의 관점에서 예측 변수를 정의함으로써 발생하는 추론 및 해석 가능성; & 모두는 한계 관계가 단조로운 (또는 그 반대) 경우에도 비단 조 조건부 관계가 모델링되도록합니다. 내가 얻는 것은 WoE 변환이 문제를 찾는 해결책이라고 생각합니다. 더 널리 사용되는 방법보다 더 나은 예측을 생성하는 상황이 있습니까? -그것은 당신이 여기에 대답 한 것과는 다른 질문입니다 (아마도 stats.stackexchange.com/q/166816/17230 ).
Scortchi-Monica Monica 복원

카테고리 데이터가 이미 있다면 어떨까요? 그렇다면 "단조 적 관계를 구축하는 것"의 유일한 이점은 무엇입니까?
information_interchange

7

로지스틱 회귀 분석에서 WOE를 사용하는 합리적인 이유는 때로는 소위 세미 나이브 베이지안 분류기 (SNBC)를 생성하는 것입니다. 이 블로그 게시물의 시작 부분은 꽤 잘 설명되어 있습니다 : http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

모델의 베타 매개 변수는 다른 예측 변수의 존재로 인한 각 순진한 효과 (일명 증거 가중치)의 선형 편향이며이 요소의 존재로 인해 특정 예측 변수의 로그 확률의 선형 변화로 해석 될 수 있습니다. 다른 예측 자.


1

증거 가중치 (WoE)는 변수 변환 및 선택을 수행하는 강력한 기술입니다. 신용 평가에서 우수 고객과 나쁜 고객의 분리를 측정하는 데 널리 사용됩니다. (변수). 장점 ::-결 측값 처리 변환이 로그의 분포 값을 기반으로하는 특이 치를 처리합니다. 적절한 비닝 기술을 사용하여 더미 변수가 필요하지 않으며 독립적이고 의존적 인 단조로운 관계를 설정할 수 있습니다.

mono_bin () = 숫자 변수에 사용됩니다. char_bin () = 문자 변수에 사용됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.