다운 샘플링은 로지스틱 회귀 계수를 변경합니까?


34

매우 드물게 양수 클래스가있는 데이터 세트가 있고 음수 클래스를 다운 샘플링 한 다음 로지스틱 회귀를 수행하는 경우 양수 클래스의 보급률을 변경했다는 사실을 반영하기 위해 회귀 계수를 조정해야합니까?

예를 들어, Y, A, B 및 C의 변수가 4 개인 데이터 집합이 있다고 가정 해 보겠습니다. Y, A 및 B는 이진수이고 C는 연속적입니다. 11,100 개의 관측치 Y = 0 및 900Y = 1의 경우 :

set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)

A, B 및 C를 고려하여 Y를 예측하기 위해 로지스틱 회귀 분석에 적합합니다.

dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)

그러나 시간을 절약하기 위해 Y가 아닌 10,200 개의 관측 값을 제거하여 900 Y = 0 및 900 Y = 1을 제공 할 수 있습니다.

require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)

두 모델의 회귀 계수는 매우 유사합니다.

> coef(summary(mod1))
              Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -127.67782  20.619858 -6.191983 5.941186e-10
A           -257.20668  41.650386 -6.175373 6.600728e-10
B            -13.20966   2.231606 -5.919353 3.232109e-09
C           -127.73597  20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
              Estimate  Std. Error     z value    Pr(>|z|)
(Intercept) -167.90178   59.126511 -2.83970391 0.004515542
A           -246.59975 4059.733845 -0.06074284 0.951564016
B            -16.93093    5.861286 -2.88860377 0.003869563
C           -170.18735   59.516021 -2.85952165 0.004242805

다운 샘플링이 계수에 영향을 미치지 않았다고 믿게됩니다. 그러나 이것은 하나의 고안된 예이며 확실히 알고 싶습니다.


8
절편을 제외하고는 다운 샘플링 할 때 동일한 모집단 모수를 추정하지만 정확도가 떨어집니다. 증거는 Hosmer & Lemeshow (2000), Applied Logistic Regression , Ch 6.3을 참조하십시오 . 대다수 응답을 다운 샘플링 할 때 일반적으로는 아니지만 분리를 도입 할 수 있습니다.
Scortchi-Monica Monica 복원

@Scortchi 귀하의 의견을 답변으로 올리십시오. 이것은 내 질문에 충분 해 보입니다. 참조 주셔서 감사합니다.
Zach

@Scortchi와 자크 : 다운 샘플 모델 (에 따르면 mod2), Pr(>|z|)위해가 A거의 1. 우리는 계수가 있다는 귀무 가설 거부 할 수 없다 A우리가 사용되는 공변량을 잃은 있도록 0입니다 mod1. 이것이 실질적인 차이가 아닙니까?
Zhubarb

@Zhubarb : 앞에서 언급했듯이 Wald 표준 오류 추정값을 완전히 신뢰할 수 없도록 분리를 도입 할 수 있습니다.
Scortchi-Monica Monica 복원

참조 스캇 2006
StasK

답변:


28

다운 샘플링은 의료 통계의 사례 제어 설계와 같습니다. 반응 수를 수정하고 공변량 패턴 (예측 자)을 관찰합니다. 아마도 주요 참고 문헌은 Prentice & Pyke (1979), "물류 질병 발생률 모델 및 사례-제어 연구", Biometrika , 66 , 3입니다.

그들은 베이 즈 정리 (Bayes 'Theorem)를 사용하여 두 가지 요소 인 경우 또는 통제 조건에 따라 주어진 공변량 패턴의 확률에 대한 가능성으로 각 항을 다시 썼다. 하나는 일반적인 로지스틱 회귀 분석 (공변량 패턴의 경우 또는 제어 조건 일 가능성)을 나타내고 다른 하나는 공변량 패턴의 한계 확률을 나타냅니다. 그들은 사례 또는 통제의 한계 확률이 표본 추출 체계에 의해 고정되어 있다는 제약 조건에 따라 전체 우도를 최대화한다는 것은 제약없이 첫 번째 요소를 최대화하는 것과 동일한 승산 비 추정치 (즉, 정규 로지스틱 회귀 수행)를 나타냄을 보여주었습니다. .

모집단 유병률 가 알려진 경우 모집단 대한 절편은 사례 제어 절편 에서 추정 할 수 있습니다 .β 0 πβ0β^0π

β^0=β^0log(1ππn1n0)

여기서 & 은 각각 샘플링 된 컨트롤 및 사례 수입니다.n 1n0n1

물론 데이터를 버려서 가장 유용한 부분은 아니지만 수집의 어려움을 겪었으므로 추정의 정확도가 떨어집니다. 계산 리소스에 대한 제약 조건이 내가 이것을 아는 유일한 이유이지만 일부 사람들은 "밸런스드 데이터 세트"가 내가 확인할 수 없었던 다른 이유로 중요하다고 생각하기 때문에 언급합니다.


자세한 답변 주셔서 감사합니다. 그리고 그렇습니다. 다운 샘플링이없는 전체 모델을 실행하는 이유는 계산 상 엄청납니다.
Zach

@Scortchi에게, 설명에 감사하지만 로지스틱 회귀를 사용하려는 경우 계산 리소스에 관계없이 균형 잡힌 데이터 세트가 필요한 것 같습니다. 나는 "Firth의 치우친 감소 된 벌점 가능성 로짓"을 아무 소용없이 사용하려고했습니다. 다운 샘플링이 유일한 대안 인 것 같습니다.
Shahin

@Shahin 음, (1) 왜 최대 회귀에 따른 로지스틱 회귀 분석에 만족하지 않습니까? & (2) Firth의 방법을 사용하면 정확히 무엇이 잘못됩니까?
Scortchi-Monica Monica 복원

@ Scortchi, 문제는 모델이 success인스턴스 감지에 매우 나쁘다는 것입니다 . 다시 말해, TPR이 매우 낮습니다. 임계 값을 변경하면 TPR이 증가하지만 정밀도는 매우 나쁩니다. 즉, 양으로 레이블이 지정된 인스턴스의 70 % 이상이 실제로 음입니다. 드문 경우에 로지스틱 회귀 분석이 잘 수행되지 않는다는 것을 읽었습니다. 이것이 Firth의 방법이 수행되는 곳이거나 수행 할 수있는 하나 이상의 역할입니다. 그러나 Firth의 방법의 결과는 일반적인 로짓과 매우 유사했습니다. 나는 Firth 's를하는 것은 틀렸다고 생각했지만, 모든 것이 괜찮아 보인다
Shahin

3
@Shahin : 잘못된 트리를 짖는 것 같습니다. 다운 샘플링은 모델의 차별성을 향상시키지 않습니다. 바이어스 보정 또는 정규화 (새로운 데이터에이 - 당신은 테스트 세트에 대한 성능을 평가하는), 그러나 더 복잡한 사양은 수 아마도 도움을, 또는 단순히 당신이 더 많은 정보 예측이 필요하다고 할 수있다. 데이터, 주제, 상황, 모델, 진단 및 목표에 대한 세부 정보를 제공하는 새로운 질문을해야 할 것입니다.
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.