단일 변수에서 결측 데이터의 80 %


12

내 데이터에 하나의 변수에 누락 된 데이터의 80 %가 있습니다. 존재하지 않기 때문에 데이터가 누락되었습니다 (즉, 회사가 빚진 은행 대출 금액). 더미 변수 조정 방법 이이 문제의 해결책이라고 말하는 기사를 보았습니다. 이 연속 변수를 범주 형으로 변환해야한다는 것을 의미합니까?

이것이 유일한 해결책입니까? 이론적으로 생각할 때이 변수를 삭제하고 싶지 않습니다. 연구 질문에 중요합니다.

답변:


21

데이터가 알려지지 않았다는 의미 에서 "누락 된"데이터입니까, 아니면 대출이 없음을 의미합니까 (대출 금액이 0 임)? 후자처럼 들리는데,이 경우 대출이 있는지 여부를 나타 내기 위해 추가 바이너리 더미가 필요합니다 . 대출 금액의 변환은 필요하지 않습니다 (아마도 다른 고려 사항으로 표시 될 수있는 루트 또는 시작된 로그와 같은 지속적인 재 표현).

이것은 회귀 분석에서 잘 작동합니다. 간단한 예는 양식의 개념적 모델입니다

dependent variable (Y) = loan amount (X) + constant.

대출 지표 ( )를 추가하면 회귀 모형은 다음과 같습니다.I

Y=βII+βXX+β0+ϵ

와 제로 기대 무작위 오류를 나타내는. 계수는 다음과 같이 해석됩니다.ϵ

Y X = 0 I = 0β0 은 및 특성화되기 때문에 대출이없는 상황에서 를 기대 합니다.YX=0I=0

Y XβX 는 대출 금액 ( )에 대한 의 한계 변화입니다 .YX

βI+β0 은 대출 사례에 대한 가로 채기입니다.


2
그들은 실종 된 것으로 취급되지 않으며, 대출금이없는 가치를 추정 할 것입니다. 어쩌면 당신은 'NA'를 대출하지 않았을 것입니다.이 경우에 그것들을 0으로 다시 코딩해야합니다.
John

2
@John 감사합니다. 이것이 제가 추천하는 바로 그 것입니다. 요점은 적절한 방식으로 대출 가치 ( ) 를 표현하고 (예 : log (amount + 1)) 대출이없는 경우에 대해 및 을 설정하는 것입니다. 이것은 로지스틱 회귀를 포함한 회귀 표준 기술입니다. X = 0 I = 1XX=0I=1
whuber

3
@ lcl23 상황을 올바르게 이해했다면 대치가 의미가 없습니다. "결측"데이터가 누락되지 않았습니다. 대출이 이루어지지 않았 음을 나타냅니다.
whuber

1
@Bakaburg 나는 당신이 그것을 뒤로 가지고 있다고 생각하지만 중요하지 않습니다-두 모델 ( 대 )은 동일합니다. 그러한 지표가 있거나없는 모델의 예측 값은 다르므로 요청하려는 내용을 이해할 수 없습니다. "nondetect"는 "존재하지 않음"과 크게 다릅니다! 탐지 한계가 충분히 작 으면 더미를 도입 할 필요가 없습니다. 그리고 필요하다면, 더미를 도입하는 것은 너무 조잡 할 수 있습니다. 이 경우 대신 검열 또는 구간 값 데이터를 분석하는 방법을 고려하십시오. I ( X = 0 )I(X=1)I(X=0)
whuber

1
대답은 바로 여기에 있습니다. 더미가 이면 값 이 예측에 추가됩니다. 더미가 이면 해당 값이 삭제됩니다. 그것이 전부입니다. β I 01βI0
whuber

1

나는 당신이 기사의 제안을 잘못 이해했다고 생각합니다. 주로 제안이 의미가 없기 때문입니다. 그러면 변수를 코딩하는 방법과 그 값이 여전히없는 두 가지 문제가 있습니다. 아마도 제안 된 것은 누락 표시기 를 만드는 것이 었습니다 .

이 설명과 거의 일치하지 않는 누락 된 데이터를 처리하는 다소 관련있는 방법은 누락 표시기 를 조정하는 입니다. 이것은 간단하고 쉬운 방법이지만 일반적으로 편향되어 있습니다. 그 편견은 그 악에 한계가 없다. 이것이 효과적으로하는 것은 두 모델에 적합하고 그 효과를 함께 평균화하는 것입니다. 첫 번째 모델은 완전 조건부 모델 이고 두 번째는 완전한 요인 모델입니다.. 완전 조건부 모델은 결 측값이있는 각 관측치가 삭제되는 완전 사례 모델입니다. 따라서 데이터의 20 % 하위 집합에 적합합니다. 두 번째는 결 측값을 전혀 조정하지 않고 나머지 80 %에 적합합니다. 이 한계 모델은 측정되지 않은 상호 작용이없는 경우, 링크 기능이 축소 가능한 경우 및 데이터가 임의로 누락 된 경우 (MAR)가없는 경우 전체 모델과 동일한 효과를 추정합니다. 이 효과는 가중 평균으로 결합됩니다. 이상적인 조건 하에서, 측정되지 않은 상호 작용이없고, 무작위 (MCAR) 데이터에서 완전히 누락 된 경우에도 한계 모델과 조건부 모델이 다른 효과를 추정하기 때문에 누락 된 지표 접근 방식이 편향된 효과로 이어집니다. 이 경우 예측조차도 편향됩니다.

훨씬 더 좋은 대안은 여러 대치를 사용하는 것입니다. 대부분 결측 요인이 매우 낮은 빈도로 측정 되더라도 MI는 가능한 값이 무엇인지에 대한 정교한 구현을 비교적 잘 수행합니다. 여기서 필요한 유일한 가정은 MAR입니다.


"링크 기능 축소 가능"은 무엇을 의미합니까?
Matthew Drury

1
@MatthewDrury 기본적으로 "축소 가능성"은 결과는 예측하지만 주 효과는 예측하지 않는 변수를 조정하면 정밀도는 증가하지만 추정 된 효과는 변경하지 않음을 의미합니다.
AdamO

쿨, 아담 감사합니다. 전에 그 용어를 듣지 못했습니다.
Matthew Drury
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.