불균형은 반드시 문제가되지는 않지만 어떻게 도달 할 수 있습니까? 샘플링 전략을 목표 변수에 근거하는 것은 좋지 않습니다. 이 변수는 회귀 모형에 임의성을 포함하므로이를 바탕으로 표본을 추출하면 모든 종류의 추론에 큰 문제가 발생합니다. 이러한 문제를 "실행 취소"할 수 있을지 의심됩니다.
예측 변수를 기반으로 합법적으로 오버 샘플 또는 언더 샘플 할 수 있습니다 . 이 경우 모델 가정이 유효한 것으로 신중하게 확인한 경우 (예 : 평상시 가정과 "일반적인"회귀가있는 경우이 상황에서 중요하다고 생각되는 동질성), 나는 당신이 필요하다고 생각하지 않습니다 예측할 때 오버 샘플링을 취소하십시오. 귀하의 사례는 이제 예측 변수의 균형 잡힌 범위를 갖도록 실험을 명시 적으로 설계 한 분석가와 유사합니다.
Y를 기준으로 샘플링하기 어려운 이유에 대한 편집-추가-확장
표준 회귀 모형 피팅 할 때 는 정규 분포, 평균은 0, 독립적이고 동일하게 분포됩니다. y의 값 ( 와 의 기여도 포함)을 기준으로 표본을 선택 하면 e의 평균이 더 이상 0이 아니거나 동일하게 분포되지 않습니다. 예를 들어, 매우 낮은 값의 e를 포함 할 수있는 낮은 값의 y는 선택 될 가능성이 적습니다. 이것은 그러한 모델에 맞는 일반적인 수단을 기반으로 추론을 망칩니다. 수정은 절두 모형에 적합하도록 계량 경제학에서 작성된 것과 유사하게 만들 수 있지만 고통스럽고 추가 가정이 필요하며 대안이없는 경우에만 사용해야합니다.와이= Xb + e이자형이자형엑스비
아래의 극단적 인 예를 고려하십시오. 반응 변수에 대해 임의의 값으로 데이터를 자르면 매우 중요한 편차가 발생합니다. 설명 변수에 대해 변수를 자르면 반드시 문제가있는 것은 아닙니다. 예측 변수 값으로 인해 선택된 서브 세트를 기반으로하는 녹색 선은 실제 적합 선에 매우 가깝습니다. 파란색 점만 기준으로 파란색 선에 대해서는 말할 수 없습니다.
언더 샘플링이 덜 심한 경우로 확장됩니다 (잘림은 논리적으로 극단적 인 언더 샘플링으로 볼 수 있기 때문에).
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")