답변:
나는 의견에서 다른 답변에 동의하지 않았으므로 나에게주는 것은 공평합니다. 하자 응답 (좋은 / 나쁜 계정), 그리고 X는 공변량합니다.X
로지스틱 회귀 분석의 경우 모델은 다음과 같습니다.
데이터 수집 방법에 대해 생각해보십시오.
의 분포 만 모델링하기 때문에 위의 모형에는 둘 다 적합합니다 . 이것들을 전향 적 연구 라고합니다 .
또는
( 와 특정 변수를 기반으로 데이터를 선택할 수도 있습니다 .이 사례는 계층화 된 사례 관리 연구이며 다루기가 훨씬 더 복잡하므로 여기서 다루지 않겠습니다).
역학 ( Prentice and Pyke (1979) 참조 )에서 사례 제어 연구의 경우 대한 최대 가능성 추정값은 로지스틱 회귀 분석, 즉 소급 데이터에 대한 전향 모델을 사용하여 찾을 수 있다는 좋은 결과가 있습니다.
그렇다면 이것이 문제와 어떻게 관련이 있습니까?
글쎄, 당신은 더 많은 데이터를 수집 할 수 있다면, 당신은 단지 나쁜 계정을보고 아직 추정하기 위해 로지스틱 회귀 분석을 사용할 수 있다는 것을 의미한다 의 (하지만 당신은 조정해야 과잉 -에 대한 계정에 대표). 각 추가 계정에 대해 1 달러의 비용이 들었다면 모든 계정을 살펴 보는 것보다 비용 효과적 일 수 있습니다. α
그러나 다른 한편으로, 가능한 모든 데이터를 이미 가지고 있다면 계층화 할 필요가 없습니다. 데이터를 버리고 (더 나쁜 추정값을 제공함) 추정하려고하는 문제가 남습니다 .
무증상으로, 양 대 음의 패턴의 비율은 본질적으로 관련이 없습니다. 통계적 분포를 적절히 설명하기 위해 소수 클래스의 표본이 너무 적은 경우 주로 문제가 발생합니다. 데이터 세트를 더 크게 만들면 일반적으로 문제가 해결됩니다 (가능한 경우).
이것이 불가능한 경우, 가장 좋은 방법은 데이터를 재 샘플링하여 균형 잡힌 데이터 세트를 얻은 다음 분류기의 출력에 곱하기 조정을 적용하여 훈련 세트와 운영 상대 클래스 주파수 간의 차이를 보상하는 것입니다. (무증상) 최적 조정 계수를 계산할 수는 있지만 실제로는 교차 검증을 사용하여 조정을 조정하는 것이 가장 좋습니다 (점근선이 아닌 유한 한 실제 사례를 처리하므로).
이런 종류의 상황에서 나는 종종 모델위원회를 사용하는데, 각 모델은 소수 패턴과 동일한 크기의 대다수 소수 패턴의 다른 무작위 표본과 모든 소수 패턴에 대해 학습됩니다. 이것은 다수의 패턴의 단일 서브셋을 선택할 때 불운을 방지합니다.
이론적으로 "좋은"과 "나쁜"의 비율이 거의 비슷한 경우 더 잘 구별 할 수 있습니다. 계층화 된 샘플링, 불량 사례를 오버 샘플링 한 후 나중에 가중치를 다시 조정하여 나중에 실제 비율로 돌아갈 수 있습니다.
이것은 약간의 위험을 수반합니다. 특히, 귀하의 모델은 개인을 "잠재적으로 나쁜"것으로 분류 할 가능성이 높습니다. 아마도 기한 내에 공공 요금을 지불하지 않는 사람들 일 것입니다. 이 작업을 수행 할 때 오류의 영향을 제대로 인식하는 것이 중요합니다. 특히 모델에 의해 "좋은 고객"이 "잠재적으로 불량"으로 표시되는 경우가 많으며, 계층화 된 샘플링에 의한 모델.
이제 실패 비율이 낮다는 것이 중요합니까 (잘못된 계정)? 일부 사람들이 이미 지적했듯이 샘플 데이터가 균형을 유지하는 한 실제로는 아닙니다. 그러나 데이터의 균형이 맞지 않으면 선택하지 않은 일부 선택 효과가있는 경우 더 많은 데이터를 얻는 것이 거의 쓸모가 없을 수 있습니다. 이 경우 일치를 사용해야하지만 균형이 부족하면 일치가 거의 쓸모 없게 될 수 있습니다. 또 다른 전략은 자연 실험을 찾으려고하므로 도구 변수 또는 회귀 불일치 설계를 사용할 수 있습니다.
마지막으로, 균형이 잡힌 표본이 있거나 선택 바이어스가 없다면 나쁜 계정이 거의 없다는 사실에 대해 걱정할 수 있습니다. 5 %가 드물다고 생각하지는 않지만, 경우에 따라서 는 희귀 한 이벤트 물류 실행에 대한 게리 킹의 논문을 살펴보십시오 . Zelig 패키지의 R에서는 드문 이벤트 로지스틱을 실행할 수 있습니다.
자, 사기 탐지 작업을하므로 이런 종류의 문제는 새로운 것이 아닙니다. 기계 학습 커뮤니티는 불균형 데이터에 대해 꽤 말할 것이 있다고 생각합니다 (클래스에서 불균형이 있음). 이미 언급 한 몇 가지 쉬운 쉬운 전략과 몇 가지 깔끔한 아이디어가 있습니다. 나는 이것이 당신의 문제에 대한 무증상의 의미가 무엇인지 아는 척하지는 않지만 항상 로지스틱 회귀에서 합리적인 결과를주는 것처럼 보입니다. 어딘가에 종이가 있을지 모르지만
내가 보는 옵션은 다음과 같습니다.
어쨌든, 나는이 모든 방법을 사용했지만 가장 간단한 방법은 물류 회귀에 대한 문제를 어쨌든 다시 강조하는 것입니다. 모델을 확인하기 위해 할 수있는 한 가지는 다음과 같습니다.
-Intercept/beta
주어진 변수 ceteris paribus 의 결정 경계 (두 클래스 중 하나 일 확률 50 %) 여야합니다 . 의미가 맞지 않는 경우 (예 : 의사 결정 경계가 엄격하게 양수인 변수의 음수 인 경우) 로지스틱 회귀 분석에 편향이있어 수정해야합니다.