상관 행렬을 계산할 때 결 측값이있는 관측 값을 삭제하는 데 심각한 문제가 있습니까?


12

2500 개의 변수와 142 개의 관측치가있는이 거대한 데이터 세트가 있습니다.

변수 X와 나머지 변수 사이의 상관 관계를 실행하고 싶습니다. 그러나 많은 열의 경우 누락 된 항목이 있습니다.

"pairwise-complete"인수 ( use=pairwise.complete.obs)를 사용하여 R 에서이 작업을 시도 하고 많은 상관 관계를 출력했습니다. 그러나 StackOverflow의 누군가 가이 기사 http://bwlewis.github.io/covar/missing.html 에 대한 링크를 게시 했으며 R의 "pairwise-complete"메소드를 사용할 수 없게 만듭니다.

내 질문 : "pairwise-complete"옵션을 사용하는 것이 적절한 지 어떻게 알 수 있습니까?

use = complete.obs돌아 왔 no complete element pairs으므로 그 의미를 설명 할 수 있다면 좋을 것입니다.


4
알아야 할 고전적인 이야기 는 Abraham Wald이야기와 WWII에서 비행기에 갑옷을 추가 할 위치에 관한 질문입니다 . 데이터가 누락 된 이유를 이해하는 것이 중요합니다 .
Matthew Gunn 17

답변:


11

한 쌍의 완전한 관측에 대한 상관 문제

설명하는 경우 주요 문제는 해석입니다. 페어 단위의 완전한 관측치를 사용하기 때문에 누락 된 관측치에 따라 실제로 각 상관 관계에 대해 약간 다른 데이터 세트를 분석하고 있습니다.

다음 예제를 고려하십시오.

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

데이터 세트의 세 변수, a, b,와 c, 각각의 일부가 누락 값을 갖는다. 여기에서 변수 쌍에 대한 상관 관계를 계산하면 문제의 두 변수에 대해 결 측값이없는 경우 만 사용할 수 있습니다. 이 경우, a와 사이의 상관 관계에 대한 마지막 3 b가지 경우 b와와 사이의 상관 관계에 대한 처음 세 가지 경우 만 분석한다는 의미입니다 c.

각 상관 관계를 계산할 때 완전히 다른 경우를 분석한다는 사실은 결과로 나타나는 상관 관계 패턴이 의미가없는 것처럼 보일 수 있음을 의미합니다. 보다:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

논리적 모순 같은이 모습은 --- ab강력 양의 상관 관계, 그리고 b하고 c도 강력하게 긍정적 인 상관 관계가, 당신이 기대 있도록 a하고 c긍정적 아니라 상관 관계가 될 수 있지만, 그 반대 방향으로 강한 협회는 실제로있다. 많은 분석가가 왜 싫어하는지 알 수 있습니다.

whuber의 유용한 설명을 포함하도록 편집하십시오.

인수의 일부는 "강한"상관 관계가 의미하는 바에 따라 다릅니다. 그것은 매우 용 가능 a하고 b물론 bc사이 "는 반대 방향의 강한 연관"존재 상태 "강한 양의 상관 관계"으로 a하고 c,이 예에서와 같이,하지만 확실히 극단적. 이 문제의 핵심은 추정 된 상관 (또는 공분산) 행렬이 양의 한정적이지 않을 수 있다는 것입니다. 이것이 "강한"을 정량화하는 방법입니다.

실종 유형의 문제

"각 상관 관계에 대해 사용할 수있는 사례의 하위 집합이 완전한 데이터가있을 때 얻을 수있는 것과 동일한 패턴을 따르는 것으로 가정하는 것이 좋지 않습니까?" 그리고 그렇습니다, 그것은 사실입니다 --- 가용 한 데이터가 무작위 라면, 데이터의 서브셋에 대한 상관 관계를 계산하는 데 근본적으로 아무 문제가 없습니다 누락이없는 경우 있었던 모든 데이터의 샘플.

누락이 순전히 무작위 인 경우 이를 MCAR (임의의 결측)이라고합니다. 이 경우 누락이없는 데이터의 하위 집합을 분석해도 결과가 체계적으로 바이어스되지 않으며 위의 예에서 보여준 일종의 견과류 상관 관계 패턴을 얻는 것이 불가능하지는 않지만 불가능하지는 않습니다.

당신의 실종이 어떤 방식으로 체계적 일 때 (종종 두 가지 종류의 체계적 실종을 묘사하는 MAR 또는 NI로 약칭 됨) 계산에 편향을 유발할 수있는 가능성과 일반화 능력에있어서 훨씬 더 심각한 문제 관심있는 모집단에 대한 결과 (분석중인 샘플이 전체 데이터 세트가 되었더라도 모집단의 무작위 표본이 아니기 때문에).

누락 된 데이터 및 처리 방법에 대해 배울 수있는 유용한 자료가 많이 있지만 권장 사항은 Rubin : classic , 최신 기사입니다.


2

1
@ whuber 감사합니다, 그것은 중요한 포인트입니다. 해당 설명을 포함하도록 답변의 해당 섹션을 업데이트했습니다.
Rose Hartman

7

큰 문제는 데이터가 체계적인 방식으로 누락되어 분석을 손상시킬 수 있는지 여부입니다. 데이터가 무작위로 누락되지 않았을 수 있습니다.

이것은 이전 답변에서 제기되었지만 모범을 보여 줄 것이라고 생각했습니다.

재무 예 : 누락 된 수익은 불량한 수익 일 수 있습니다

  • 뮤추얼 펀드와 달리, 사모 펀드 (및 기타 프라이빗 펀드)는 법에 의해 수익을 일부 중앙 데이터베이스에보고 할 필요가 없습니다.
  • 따라서 주요 관심사는보고가 내생 적이며, 특히 일부 회사는 나쁜 수익을보고하지 않을 것이라는 점입니다.
  • 1나는아르 자형나는아르 자형나는

이러한 상황에서 모든 것을 잃어 버릴 필요는 없지만 (할 수있는 일이 있음), 결측되지 않은 데이터에 대해 회귀 (또는 계산 상관 관계)를 순진하게 실행하면 모집단의 실제 모수에 대해 심각하게 편향되고 일관되지 않은 추정치가 발생할 수 있습니다.


4

결측 데이터가 임의의 결 측값 (MCAR) 인 경우 쌍별 상관이 적절합니다. Paul Allison 's Missing Data 책은 왜 시작하기에 좋은 장소입니다.

BaylorEdPsych패키지 에있는 Little (1988) MCAR Test를 사용하여이를 테스트 할 수 있습니다 .


1
여전히 우려 할만한 이유가 있습니다. MCAR 데이터를 사용하더라도 페어 와이즈 상관 관계 를 통해 추정 된 상관 관계 매트릭스는 양의 한정이 될 수 없습니다.
whuber

물론, 질문은 상관 관계에 대해 묻지 만 결과 알고리즘을 다른 알고리즘의 입력으로 사용하는 것에 대해서는 언급하지 않습니다. 그리고 샘플 크기를 감안할 때 MCAR은 어쨌든 거의 없습니다.
Tim

1
행렬이 양의 한정이 아닌 경우 잘못된 추정치입니다. 최소한 그 불일치에 대해 걱정해야합니다. MCAR (실종 메커니즘)의 가능성이 표본 크기와 어떤 관련이 있는지 알 수 없습니다.
whuber

asker는 상관 행렬의 단일 행에 관심이 있습니다. 행렬이 양의 한정이 아닌 경우 행이 모두 유효하지 않은 상관 관계를 나타내는 증거가 있습니까? 나는 이것의 증거를보고 지혜를 얻고 싶습니다. MCAR은 일반적으로 실제 데이터와 거의 일치하지 않습니다. 표본 크기가 크면 Little 검정의 검정력이 증가하므로 MCAR의 귀무 가설을 기각 할 가능성이 높습니다. 여기에 오해하지 마십시오 : 부분 데이터 상관 행렬을 다변량 방법의 입력으로 사용하지는 않지만 이것이 질문에 관한 것은 아닙니다.
Tim

1
분명히 설명하겠습니다. 상관 관계가 "모두 유효하지 않다"고 주장하지 않았습니다. 상관 추정치 (즉, 행렬) 의 수집 유효하지 않을 수 있다고 주장 했습니다 . @RoseHartman이 이미이 스레드에서 수행 한 유효하지 않은 견적의 인스턴스 하나만 표시하기 때문에 논란의 여지가 없습니다 (증거가 필요 없음). 나는 MCAR가 어려울 수 있습니다 귀하의 이의를 제기하지 않을 것이다 - 그것은 개인적인 의미로 이해된다 제공 : 당신의 경험에서, 당신이 잘 알고있는 데이터의 종류 MCAR는 드물다. 그 주장에 대한 더 넓은 해석을 어떻게 정당화 할 수 있는지 모르겠습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.