이진 분류 문제를 공격하는 데 사용할 많은 기능 벡터 세트가 있습니다 (파이썬에서 scikit learn 사용). 대치에 대해 생각하기 전에 누락 된 데이터가 '무작위로 누락'되거나 무작위로 누락되지 않은 경우 데이터의 나머지 부분에서 결정하려고합니다.
이 질문에 접근하는 현명한 방법은 무엇입니까?
더 나은 질문은 데이터가 '완전히 무작위로 누락되는지'를 묻는 것입니다. 그것을하는 현명한 방법은 무엇입니까?
이진 분류 문제를 공격하는 데 사용할 많은 기능 벡터 세트가 있습니다 (파이썬에서 scikit learn 사용). 대치에 대해 생각하기 전에 누락 된 데이터가 '무작위로 누락'되거나 무작위로 누락되지 않은 경우 데이터의 나머지 부분에서 결정하려고합니다.
이 질문에 접근하는 현명한 방법은 무엇입니까?
더 나은 질문은 데이터가 '완전히 무작위로 누락되는지'를 묻는 것입니다. 그것을하는 현명한 방법은 무엇입니까?
답변:
내 의견에서 내가 말한 정보를 찾았습니다.
에서 반 Buurens 책 , 31 페이지, 그는 기록
"MCAR 대 MAR을 테스트하기 위해 여러 가지 테스트가 제안되었습니다. 이러한 테스트는 널리 사용되지 않으며 실제적인 가치는 불분명합니다. 두 가지 절차에 대한 평가는 Enders (2010, pp. 17–21)를 참조하십시오 . 테스트 할 수 없습니다 이러한 테스트에 필요한 정보가 없기 때문에 MAR 대 MNAR "
누락 된 데이터를 검색하지 않으면 불가능합니다. 결측 데이터가 무작위로 누락되었는지 (MAR) 또는 무작위로 그렇지 않은지 (MNAR) 여부는 관찰 된 데이터에서 확인할 수 없습니다. 데이터가 무작위로 완전히 누락되지 않았는지 여부 만 알 수 있습니다 (MCAR). 그 외에도 MNAR과 달리 MCAR 또는 MAR의 타당성에 대해서만 호소하십시오 (예 : 데이터가 누락 된 이유보고). 또는 누락 된 데이터의 비율이 적고 MNAR에서는 결과가 뒤집 히기 위해 매우 극단적 인 시나리오가 발생하기 때문에 너무 중요하지 않다고 주장 할 수 있습니다 ( "팁 포인트 분석"참조).
지형지 물에서 누락 된 값과 다른 지형지 물의 값에 상관 관계가 있는지 알고 싶습니다.
각 기능에 대해 값이 누락되었는지 여부를 나타내는 새 기능을 작성하십시오 ( "is_missing"기능이라고 함). is_missing 기능과 나머지 기능에 대해 선호하는 상관 관계 측정 (여기서는 상호 정보를 사용하는 것이 좋습니다)을 계산하십시오.
두 피처 사이에 상관 관계가없는 경우 피처 그룹으로 인해 상관 관계가있을 수 있습니다 (값이 10 개의 다른 피처의 XOR 함수로 누락 됨).
많은 기능 세트와 많은 수의 값을 가지면 임의성으로 인해 잘못된 상관 관계가 발생합니다. 그에 대처하는 규칙적인 방법 이외 (유효 설정, 충분히 높은 임계 값) 상관 관계가 대칭적이고 전이 적인지 확인할 수 있습니다. 그들이 사실이라면, 그들은 사실 일 가능성이 높으므로 더 확인해야합니다.
내가 사용하는 방법은 데이터 매트릭스가 값이 있으면 1이 주어지고 0이 없으면 0으로 표시되는 지표 변수로 구성된 섀도우 매트릭스입니다. 이들을 서로 원래 데이터와 연관 시키면 변수가 함께 누락되는 경향 (MAR)인지 아닌지 (MCAR)를 판별하는 데 도움이 될 수 있습니다. 사용 R
(책에서 로버트 Kabacoff하여 "행동 R"을 차입)에 대한 예 :
#Load dataset
data(sleep, package = "VIM")
x <- as.data.frame(abs(is.na(sleep)))
#Elements of x are 1 if a value in the sleep data is missing and 0 if non-missing.
head(sleep)
head(x)
#Extracting variables that have some missing values.
y <- x[which(sapply(x, sd) > 0)]
cor(y)
#We see that variables Dream and NonD tend to be missing together. To a lesser extent, this is also true with Sleep and NonD, as well as Sleep and Dream.
#Now, looking at the relationship between the presence of missing values in each variable and the observed values in other variables:
cor(sleep, y, use="pairwise.complete.obs")
#NonD is more likely to be missing as Exp, BodyWgt, and Gest increases, suggesting that the missingness for NonD is likely MAR rather than MCAR.