데이터가 누락 된 경우에 대해 단순히 다른 모델을 작성하는 것보다 누락 된 데이터에 대한 대치가 더 나은 이유에 대해 누군가가 통찰력을 제공 할 수 있는지 궁금합니다. 특히 [일반화 된] 선형 모델의 경우 (비선형의 경우 상황이 다를 수 있음)
기본 선형 모델이 있다고 가정하십시오.
그러나 데이터 세트에 누락 된 일부 레코드가 포함되어 있습니다 . 모델이 사용될 예측 데이터 세트에는 이 누락 된 경우도 있습니다 . 진행하는 두 가지 방법이 있습니다.X 3
여러 모델
데이터를 및 사례 로 분할하고 각각에 대해 별도의 모델을 구축 할 수 있습니다. 이 와 밀접한 관련이 있다고 가정 하면 누락 된 데이터 모델이 를 과체중 하여 최상의 2- 예측 예측을 얻을 수 있습니다 . 또한 누락 된 데이터 사례가 누락 된 데이터 메커니즘으로 인해 약간 다른 경우 해당 차이를 통합 할 수 있습니다. 단점은 두 모델이 각각 데이터의 일부에만 적합하고 서로 "도움이되지"않기 때문에 제한된 데이터 집합에서는 적합하지 않을 수 있습니다.X 3 X 3 X 2 X 2
돌리기
회귀 다중 regression multiple imputation)는 먼저 및 기반으로 모델을 구축 한 다음 무작위 샘플링하여 된 데이터의 노이즈를 유지 함으로써 을 채 웁니다 . 이것은 다시 두 가지 모델이므로 위의 다중 모델 방법과 동일하지 않습니까? 그것이 성과를 능가 할 수 있다면 – 이익은 어디에서 오는가? 에 대한 적합 이 전체 세트에서 완료 되었습니까?X 1 X 2 X 1
편집하다:
Steffan의 답변은 지금까지 전가 된 데이터에 대한 완전한 사례 모델을 적합시키는 것이 완전한 데이터에 대한 성능을 능가 할 것이라고 설명하지만, 그 반대의 경우는 분명하지만, 누락 된 데이터 예측에 대해서는 여전히 오해가 있습니다.
위의 모형이 있고 완벽하게 적합하더라도 예측할 때 0을 입력하면 일반적으로 끔찍한 예측 모형이됩니다. 것으로, 예를 들면, 상상 다음 (완전히 쓸모 ) 때 존재하지만 아직의 부재에 유용하다 .X 2 β 2 = 0 X 3 X 3
내가 이해하지 못하는 주요 질문은 : 사용하는 모델 과 를 사용하는 모델, 또는 하나의 (전체) 모델을 빌드하고 사용하는 것이 더 낫다는 것입니다 예측 데이터 세트에 대한 대치-또는 이것들이 같은 것입니까?
Steffan의 대답에 따르면, 전가 된 훈련 세트에서 완전한 사례 모델을 작성하는 것이 더 좋으며, 반대로 버린 전체 데이터 세트에서 누락 된 데이터 모델을 작성하는 것이 가장 좋습니다 . 이 두 번째 단계는 예측 데이터에서 대치 모델을 사용하는 것과 다른 점이 있습니까?