각 그룹에서 중요한 상관 관계가 있지만 전체적으로 중요하지 않은가?


9

변수 간의 피어슨 상관 관계를 테스트한다고 가정합니다. xy 그룹으로 AB. 가능합니까?(x,y) 각각에서 유의 한 상관 관계 AB그러나 두 그룹의 데이터가 결합 될 때 중요하지 않은가? 이 경우 이에 대한 설명을 제공해 주시겠습니까?

답변:


21

예, 가능하며 모든 종류의 방식으로 발생할 수 있습니다. 한 가지 분명한 예는 x와 y의 값을 반영하는 방식으로 A와 B의 멤버쉽을 선택한 경우입니다. @Macro의 의견은 다른 가능성을 제시하는 다른 예도 가능합니다.

R과 x로 작성된 아래의 예를 고려해보십시오. x와 y는 iid 표준 정규 변수이지만 x와 y의 상대 값을 기반으로 그룹에 변수를 할당하면 이름이 지정된 siutation을 얻습니다. 그룹 A와 그룹 B에는 x와 y 사이에 통계적으로 유의 한 상관 관계가 있지만 그룹 구조를 무시하면 상관 관계가 없습니다.

여기에 이미지 설명을 입력하십시오

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

+1. 이것은 나에게 일어나지 않은 매우 영리한 예입니다.
매크로

13

한 가지 가능성은 효과가 각 그룹에서 다른 방향으로 진행될 수 있으며 집계 할 때 취소 될 수 있습니다 . 회귀 모형에서 중요한 교호 작용 항을 제외 할 때 주요 효과가 잘못 될 수있는 방법과도 관련이 있습니다.

예를 들어 그룹에서 A응답 사이의 진정한 관계 yi 그리고 예측 자 xi 입니다 :

E(yi|xi,Group A)=1+xi

그리고 그룹에서 B,

E(yi|xi,Group B)=1xi

그룹 멤버쉽이 분산되어 있다고 가정하십시오.

P(Group A)=1P(Group B)=p
그런 다음 그룹 회원을 소외하고 계산하면 E(yi|xi)에 의해 총 기대의 법칙 당신이 얻을 수

E(yi|xi)=E(E(yi|xi,Group))=p(1+xi)+(1p)(1xi)=p+pxi+1xip+pxi=1xi(2p1)

따라서 p=1/2, E(yi|xi)=1 그리고 의존하지 않는다 xi조금도. 따라서 두 그룹 내에 관계가 있지만, 집계 할 때 관계가 없습니다. 다시 말해, 그룹 구성원을 모르는 인구에서 무작위로 선택된 개인의 경우 평균적으로는 아무런 관계가 없습니다.xiyi. 그러나 각 그룹에는 있습니다.

값이 p 각 그룹 내에서 효과 크기를 완벽하게 균형 조정하면이 결과로 이어질 것입니다-이것은 계산을 쉽게하는 장난감 예제 일뿐입니다. :)

참고 : 정규 오류의 경우 선형 회귀 계수의 중요성은 Pearson 상관 관계의 중요성과 동일하므로이 예에서는 현재보고있는 내용에 대한 하나의 설명을 강조합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.