한 쌍의 완전한 관측에 대한 상관 문제
설명하는 경우 주요 문제는 해석입니다. 페어 단위의 완전한 관측치를 사용하기 때문에 누락 된 관측치에 따라 실제로 각 상관 관계에 대해 약간 다른 데이터 세트를 분석하고 있습니다.
다음 예제를 고려하십시오.
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
데이터 세트의 세 변수, a
, b
,와 c
, 각각의 일부가 누락 값을 갖는다. 여기에서 변수 쌍에 대한 상관 관계를 계산하면 문제의 두 변수에 대해 결 측값이없는 경우 만 사용할 수 있습니다. 이 경우, a
와 사이의 상관 관계에 대한 마지막 3 b
가지 경우 b
와와 사이의 상관 관계에 대한 처음 세 가지 경우 만 분석한다는 의미입니다 c
.
각 상관 관계를 계산할 때 완전히 다른 경우를 분석한다는 사실은 결과로 나타나는 상관 관계 패턴이 의미가없는 것처럼 보일 수 있음을 의미합니다. 보다:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
논리적 모순 같은이 모습은 --- a
및 b
강력 양의 상관 관계, 그리고 b
하고 c
도 강력하게 긍정적 인 상관 관계가, 당신이 기대 있도록 a
하고 c
긍정적 아니라 상관 관계가 될 수 있지만, 그 반대 방향으로 강한 협회는 실제로있다. 많은 분석가가 왜 싫어하는지 알 수 있습니다.
whuber의 유용한 설명을 포함하도록 편집하십시오.
인수의 일부는 "강한"상관 관계가 의미하는 바에 따라 다릅니다. 그것은 매우 용 가능 a
하고 b
물론 b
및 c
사이 "는 반대 방향의 강한 연관"존재 상태 "강한 양의 상관 관계"으로 a
하고 c
,이 예에서와 같이,하지만 확실히 극단적. 이 문제의 핵심은 추정 된 상관 (또는 공분산) 행렬이 양의 한정적이지 않을 수 있다는 것입니다. 이것이 "강한"을 정량화하는 방법입니다.
실종 유형의 문제
"각 상관 관계에 대해 사용할 수있는 사례의 하위 집합이 완전한 데이터가있을 때 얻을 수있는 것과 동일한 패턴을 따르는 것으로 가정하는 것이 좋지 않습니까?" 그리고 그렇습니다, 그것은 사실입니다 --- 가용 한 데이터가 무작위 라면, 데이터의 서브셋에 대한 상관 관계를 계산하는 데 근본적으로 아무 문제가 없습니다 누락이없는 경우 있었던 모든 데이터의 샘플.
누락이 순전히 무작위 인 경우 이를 MCAR (임의의 결측)이라고합니다. 이 경우 누락이없는 데이터의 하위 집합을 분석해도 결과가 체계적으로 바이어스되지 않으며 위의 예에서 보여준 일종의 견과류 상관 관계 패턴을 얻는 것이 불가능하지는 않지만 불가능하지는 않습니다.
당신의 실종이 어떤 방식으로 체계적 일 때 (종종 두 가지 종류의 체계적 실종을 묘사하는 MAR 또는 NI로 약칭 됨) 계산에 편향을 유발할 수있는 가능성과 일반화 능력에있어서 훨씬 더 심각한 문제 관심있는 모집단에 대한 결과 (분석중인 샘플이 전체 데이터 세트가 되었더라도 모집단의 무작위 표본이 아니기 때문에).
누락 된 데이터 및 처리 방법에 대해 배울 수있는 유용한 자료가 많이 있지만 권장 사항은 Rubin :
classic ,
최신 기사입니다.