불균형 데이터에 대한 로지스틱 회귀에 가중치 추가


21

불균형 데이터 (9 : 1)로 로지스틱 회귀를 모델링하려고합니다. glmR 의 함수에서 가중치 옵션을 시도하고 싶었지만 100 % 확실하지 않습니다.

내 출력 변수가 c(0,0,0,0,0,0,0,0,0,1)입니다. 이제 "1"의 무게를 10 배 더 늘리고 싶습니다. 그래서 가중치 인수를 제공합니다 weights=c(1,1,1,1,1,1,1,1,1,1,1,10).

그렇게하면 최대 가능성을 계산할 때 고려됩니다. 내가 맞아? "1"의 오 분류는 "0"의 오 분류보다 10 배나 더 나쁩니다.

답변:


11

Ching, 데이터 세트를 1과 0으로 균형을 맞추지 않아도됩니다. 최대한의 수렴 가능성을 위해 충분한 수의 1이 필요합니다. 데이터 세트에서 1 (100,000) 분포를 살펴보면 아무런 문제가 없습니다. 여기서 간단한 실험을 할 수 있습니다

  1. 1의 10 %와 0의 10 %를 샘플링하고 둘 다에 대해 가중치 10을 사용합니다.
  2. 1의 100 %와 0의 10 %를 샘플링하고 0의 가중치를 10으로 사용하십시오.

두 경우 모두 동일한 추정치를 얻게됩니다. 다시 가중치의 개념은 샘플링과 관련이 있습니다. 전체 데이터 세트를 사용하는 경우 가중치를 적용해서는 안됩니다. 내가 당신이라면 1과 0의 10 %이면 10 %를 사용합니다.

R에서는을 사용 glm합니다. 다음은 샘플 코드입니다.

glm(y ~ x1 + x2, weights = wt, data =data, family = binomial("logit"))

데이터 세트에는 wt가중치에 대한 변수가 있어야합니다 .

0과 1 모두의 10 %를 사용하면 wt변수의 값은 10입니다.

0의 10 %와 1의 100 %를 사용하는 경우 : wty는 0 인 관측 값의 경우 변수 값이 10이고 y는 1 인 관측 값의 경우 변수 값이 10입니다.


12

가중치는 표본과 모집단의 차이를 보완하기 위해 데이터에 가중치를 부여하는 절차입니다 (King 2001). 예를 들어, 드문 사건 (예 : 신용 사기 사기, 의학 문헌 사망)은 1 (희귀 사건)과 0 (비 사건)의 비율을 모두 샘플링하는 경향이 있습니다. 이 경우 관측 값에 따라 가중치를 부여해야합니다.

예 : 50 만 건의 거래 인구에서 50 건의 사기 거래가 있습니다. 이 경우에는

  1. 50 건의 사기 거래를 모두 샘플링하십시오 (사기의 100 %)
  2. 양호한 거래의 10 % (50 만개의 10 %는 50,000 개의 양호한 거래)

이 경우 사기 거래의 경우 가중치 1을 지정하고 양호한 거래의 경우 가중치 10을 지정합니다. 이를 가중 최대 가능성 방법이라고합니다. 중요한 점은 가중치가 샘플링 비율과 관련되어 있다는 것입니다

참조 : 희귀 이벤트 데이터의 로지스틱 회귀 (King 2001)


안녕 subra !!! King 접근 방식에 대단히 감사합니다 !! 들어 보지 못했다! 내 경우에는 백만 건의 거래가 있습니다! 900.000은 "0"이고 100.000은 "1"입니다. "0"의 10 %를 샘플링해야합니까? 그런 다음 거의 균형 잡힌 데이터 세트가 있습니다. "0"을 "1"보다 10 배 더 가중시켜야합니까? MASS 패키지의 R glm () 함수가 정확히 그럴까요? 관측치에 가중치를 부여하면 가중 최대 가능성을 계산합니까? 고맙습니다! 정말 당신의 대답과 도움에 감사

정말이 문제에 대해 많이 생각합니다. 내가 말하는 경우 : 이제 모든 데이터를 사용하여 로짓 모델을 만듭니다 (9 : 1 불균형 데이터 포함). 그런 다음 실제로 "1"의 무게를 10 번 측정합니다. 실제로는 더 많은 데이터가 없으며 내 데이터의 10 %가 아닙니다. 그것은 마치 내가 가진 것처럼 행동합니다 ..... 이제 R이 모델을 계산할 때, 나는 나의 "1"의 10 %만을 사용한다고 생각하고 가능성을 계산할 때 그것을 고려합니다. 그게 말이 되나요?
ching
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.