답변:
Ching, 데이터 세트를 1과 0으로 균형을 맞추지 않아도됩니다. 최대한의 수렴 가능성을 위해 충분한 수의 1이 필요합니다. 데이터 세트에서 1 (100,000) 분포를 살펴보면 아무런 문제가 없습니다. 여기서 간단한 실험을 할 수 있습니다
두 경우 모두 동일한 추정치를 얻게됩니다. 다시 가중치의 개념은 샘플링과 관련이 있습니다. 전체 데이터 세트를 사용하는 경우 가중치를 적용해서는 안됩니다. 내가 당신이라면 1과 0의 10 %이면 10 %를 사용합니다.
R에서는을 사용 glm
합니다. 다음은 샘플 코드입니다.
glm(y ~ x1 + x2, weights = wt, data =data, family = binomial("logit"))
데이터 세트에는 wt
가중치에 대한 변수가 있어야합니다 .
0과 1 모두의 10 %를 사용하면 wt
변수의 값은 10입니다.
0의 10 %와 1의 100 %를 사용하는 경우 : wt
y는 0 인 관측 값의 경우 변수 값이 10이고 y는 1 인 관측 값의 경우 변수 값이 10입니다.
가중치는 표본과 모집단의 차이를 보완하기 위해 데이터에 가중치를 부여하는 절차입니다 (King 2001). 예를 들어, 드문 사건 (예 : 신용 사기 사기, 의학 문헌 사망)은 1 (희귀 사건)과 0 (비 사건)의 비율을 모두 샘플링하는 경향이 있습니다. 이 경우 관측 값에 따라 가중치를 부여해야합니다.
예 : 50 만 건의 거래 인구에서 50 건의 사기 거래가 있습니다. 이 경우에는
이 경우 사기 거래의 경우 가중치 1을 지정하고 양호한 거래의 경우 가중치 10을 지정합니다. 이를 가중 최대 가능성 방법이라고합니다. 중요한 점은 가중치가 샘플링 비율과 관련되어 있다는 것입니다
참조 : 희귀 이벤트 데이터의 로지스틱 회귀 (King 2001)