답변:
데이터가 알려지지 않았다는 의미 에서 "누락 된"데이터입니까, 아니면 대출이 없음을 의미합니까 (대출 금액이 0 임)? 후자처럼 들리는데,이 경우 대출이 있는지 여부를 나타 내기 위해 추가 바이너리 더미가 필요합니다 . 대출 금액의 변환은 필요하지 않습니다 (아마도 다른 고려 사항으로 표시 될 수있는 루트 또는 시작된 로그와 같은 지속적인 재 표현).
이것은 회귀 분석에서 잘 작동합니다. 간단한 예는 양식의 개념적 모델입니다
대출 지표 ( )를 추가하면 회귀 모형은 다음과 같습니다.
와 제로 기대 무작위 오류를 나타내는. 계수는 다음과 같이 해석됩니다.
Y X = 0 I = 0 은 및 특성화되기 때문에 대출이없는 상황에서 를 기대 합니다.
Y X 는 대출 금액 ( )에 대한 의 한계 변화입니다 .
은 대출 사례에 대한 가로 채기입니다.
나는 당신이 기사의 제안을 잘못 이해했다고 생각합니다. 주로 제안이 의미가 없기 때문입니다. 그러면 변수를 코딩하는 방법과 그 값이 여전히없는 두 가지 문제가 있습니다. 아마도 제안 된 것은 누락 표시기 를 만드는 것이 었습니다 .
이 설명과 거의 일치하지 않는 누락 된 데이터를 처리하는 다소 관련있는 방법은 누락 표시기 를 조정하는 것 입니다. 이것은 간단하고 쉬운 방법이지만 일반적으로 편향되어 있습니다. 그 편견은 그 악에 한계가 없다. 이것이 효과적으로하는 것은 두 모델에 적합하고 그 효과를 함께 평균화하는 것입니다. 첫 번째 모델은 완전 조건부 모델 이고 두 번째는 완전한 요인 모델입니다.. 완전 조건부 모델은 결 측값이있는 각 관측치가 삭제되는 완전 사례 모델입니다. 따라서 데이터의 20 % 하위 집합에 적합합니다. 두 번째는 결 측값을 전혀 조정하지 않고 나머지 80 %에 적합합니다. 이 한계 모델은 측정되지 않은 상호 작용이없는 경우, 링크 기능이 축소 가능한 경우 및 데이터가 임의로 누락 된 경우 (MAR)가없는 경우 전체 모델과 동일한 효과를 추정합니다. 이 효과는 가중 평균으로 결합됩니다. 이상적인 조건 하에서, 측정되지 않은 상호 작용이없고, 무작위 (MCAR) 데이터에서 완전히 누락 된 경우에도 한계 모델과 조건부 모델이 다른 효과를 추정하기 때문에 누락 된 지표 접근 방식이 편향된 효과로 이어집니다. 이 경우 예측조차도 편향됩니다.
훨씬 더 좋은 대안은 여러 대치를 사용하는 것입니다. 대부분 결측 요인이 매우 낮은 빈도로 측정 되더라도 MI는 가능한 값이 무엇인지에 대한 정교한 구현을 비교적 잘 수행합니다. 여기서 필요한 유일한 가정은 MAR입니다.