회귀 분석에서 여러 모델을 작성하는 것보다 대치의 장점은 무엇입니까?


10

데이터가 누락 된 경우에 대해 단순히 다른 모델을 작성하는 것보다 누락 된 데이터에 대한 대치가 더 나은 이유에 대해 누군가가 통찰력을 제공 할 수 있는지 궁금합니다. 특히 [일반화 된] 선형 모델의 경우 (비선형의 경우 상황이 다를 수 있음)

기본 선형 모델이 있다고 가정하십시오.

와이=β1엑스1+β2엑스2+β엑스+ϵ

그러나 데이터 세트에 누락 된 일부 레코드가 포함되어 있습니다 . 모델이 사용될 예측 데이터 세트에는 이 누락 된 경우도 있습니다 . 진행하는 두 가지 방법이 있습니다.X 3엑스엑스

여러 모델

데이터를 및 사례 로 분할하고 각각에 대해 별도의 모델을 구축 할 수 있습니다. 이 와 밀접한 관련이 있다고 가정 하면 누락 된 데이터 모델이 를 과체중 하여 최상의 2- 예측 예측을 얻을 수 있습니다 . 또한 누락 된 데이터 사례가 누락 된 데이터 메커니즘으로 인해 약간 다른 경우 해당 차이를 통합 할 수 있습니다. 단점은 두 모델이 각각 데이터의 일부에만 적합하고 서로 "도움이되지"않기 때문에 제한된 데이터 집합에서는 적합하지 않을 수 있습니다.X 3 X 3 X 2 X 2엑스엑스엑스엑스2엑스2

돌리기

회귀 다중 regression multiple imputation)는 먼저 및 기반으로 모델을 구축 한 다음 무작위 샘플링하여 된 데이터의 노이즈를 유지 함으로써 을 채 웁니다 . 이것은 다시 두 가지 모델이므로 위의 다중 모델 방법과 동일하지 않습니까? 그것이 성과를 능가 할 수 있다면 – 이익은 어디에서 오는가? 에 대한 적합 이 전체 세트에서 완료 되었습니까?X 1 X 2 X 1엑스엑스1엑스2엑스1

편집하다:

Steffan의 답변은 지금까지 전가 된 데이터에 대한 완전한 사례 모델을 적합시키는 것이 완전한 데이터에 대한 성능을 능가 할 것이라고 설명하지만, 그 반대의 경우는 분명하지만, 누락 된 데이터 예측에 대해서는 여전히 오해가 있습니다.

위의 모형이 있고 완벽하게 적합하더라도 예측할 때 0을 입력하면 일반적으로 끔찍한 예측 모형이됩니다. 것으로, 예를 들면, 상상 다음 (완전히 쓸모 ) 때 존재하지만 아직의 부재에 유용하다 .X 2 β 2 = 0 X 3 X 3엑스2=엑스+η엑스2β2=0엑스엑스

내가 이해하지 못하는 주요 질문은 : 사용하는 모델 과 를 사용하는 모델, 또는 하나의 (전체) 모델을 빌드하고 사용하는 것이 더 낫다는 것입니다 예측 데이터 세트에 대한 대치-또는 이것들이 같은 것입니까?(엑스1,엑스2)(엑스1,엑스2,엑스)

Steffan의 대답에 따르면, 전가 된 훈련 세트에서 완전한 사례 모델을 작성하는 것이 더 좋으며, 반대로 버린 전체 데이터 세트에서 누락 된 데이터 모델을 작성하는 것이 가장 좋습니다 . 이 두 번째 단계는 예측 데이터에서 대치 모델을 사용하는 것과 다른 점이 있습니까?엑스

답변:


4

여기서 핵심은 누락 된 데이터 메커니즘을 이해하는 것입니다. 또는 적어도 일부를 배제하십시오. 분리 된 모델을 구축하는 것은 누락 및 비결 측 그룹을 임의의 샘플로 처리하는 것과 유사합니다. X3에서 누락이 X1 또는 X2 또는 다른 관찰되지 않은 변수와 관련이 있으면 각 모형에서 추정치가 치우칠 수 있습니다. 왜 개발 데이터 세트에 다중 대치를 사용하고 곱셈 대치 예측 세트에 결합 계수를 사용하지 않습니까? 예측 전반에 걸쳐 평균을 내면 좋을 것입니다.


그러나 누락이 X1 또는 X2와 관련이있는 경우에는 해당 정보를 통합 할 것이기 때문에 두 개의 개별 모델을 갖는 것이 좋습니다. 즉, 미래에 X3이 누락되면 올바른 방향으로 편향되어 있음을 알 수 있습니다.
Korone

3

나는 당신이 회귀 계수의 편견 추정치에 관심이 있다고 가정합니다. 전체 사례의 분석은 회귀 계수의 바이어스 추정치 산출 제공 X3는 Y. 이것은에 의존하지 않는 누락 될 확률이 missingness 확률 X1 또는 X2에 따라, 회귀 분석 모든 유형의 경우에도 보관 유지한다.

물론 전체 사례의 비율이 적 으면 추정치가 비효율적 일 수 있습니다. 이 경우 X2, X1 Y에 대해 X3의 다중 대치를 사용 하여 정밀도를 높일 수 있습니다. 자세한 내용은 White and Carlin (2010) Stat Med 를 참조하십시오.


아, 그렇다면 계수를 올바르게 얻는 것에 대한 대치가 있습니까? 계수 자체는 나에게 전혀 관심있는 - 난 그냥 (도 missingness을 가질 수있는) 새로운 데이터에 내 예측 능력을 극대화 할
Korone

1
괜찮아. 최대 예측력을 얻으려면 모형 계수의 정확하고 편향되지 않은 추정값도 필요합니다.
Stef van Buuren

전체 사례 만 사용하는 경우 계수가 일반적으로 부정확하므로 (예 : X2와 X3간에 상관 관계가있는 경우) 데이터가 누락 된 경우 예측에 해당 모델을 사용할 수 없습니다. 따라서 예측을 할 때 X3을 대치하거나 X1 및 X2에서 두 번째 모델을 작성해야합니다. 문제는 이것이 다른 예측을 낳고 어느 것이 더 낫습니까?
Korone

아, 나는 당신이 만들고있는 한 가지 점을 이해한다고 생각합니다. 대치를 사용하여 완벽한 사례 예측을 위해 모델을 맞추면 경쟁 사례에만 적합하는 것과 비교하여 완전한 사례 예측이 향상됩니다. 나머지 질문은 불완전한 경우에 가장 좋은 것은 무엇입니까?
Korone

beta_1 = beta_2 = 0 및 beta_3 = 1이라고 가정합니다. X1과 X2 만 사용하면 상수를 예측하는 반면 X3을 사용한 예측은 Y의 일부 분산을 설명하므로 잔차 오차가 더 낮아집니다. 따라서 대치 된 버전은 더 나은 예측을 생성합니다.
Stef van Buuren

0

하버드에 대한 한 연구에 따르면 누락 된 데이터에 대한 5 가지 예측 (여기서 참조, http://m.circoutcomes.ahajournals.org/content/3/1/98.full )으로 여러 대치가 제안되었습니다 . 그럼에도 불구하고, 대치 모델이 실제 기본 값을 포함하지 않는 모델 매개 변수에 대한 커버 간격을 생성하지 않을 수 있다는 의견을 기억합니다!

이를 염두에두고, 값의 산포를 생성하는 결 측값 (현재 논의에서 무작위로 결측되지 않은 것으로 가정)에 대해 5 개의 간단한 순진 모형을 사용하는 것이 가장 좋습니다. .

샘플링 이론에 대한 나의 경험은 비 응답 인구 집단을 서브 샘플링하는 데 많은 자원이 소비되는 경우가 종종 있는데, 이는 때때로 응답 집단과는 매우 다른 것으로 보인다. 따라서, 나는 특정 적용 분야에서 적어도 한 번은 결 측값 회귀에 비슷한 운동을 권장합니다. 이러한 결측 데이터 탐색에서 회복되지 않은 관계는 미래에 대한 결측 데이터 예측 모델을 개선하는 데있어 역사적 가치가있을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.