세 개의 벡터 , b 및 c 가 주어지면 a 와 b , a , c , b 와 c 사이 의 상관 관계 가 모두 음수 일 수 있습니까? 즉, 이것이 가능합니까?
세 개의 벡터 , b 및 c 가 주어지면 a 와 b , a , c , b 와 c 사이 의 상관 관계 가 모두 음수 일 수 있습니까? 즉, 이것이 가능합니까?
답변:
벡터의 크기가 3 이상이면 가능합니다. 예를 들어
상관 관계는
크기가 2 인 벡터의 경우 이것이 불가능하다는 것을 증명할 수 있습니다 :
The formula makes sense: if is larger than , has to be larger than to make the correlation negative.
Similarly for correlations between (a,c) and (b,c) we get
Clearly, all of these three formulas can not hold in the same time.
Yes, they can.
Suppose you have a multivariate normal distribution . The only restriction on is that it has to be positive semi-definite.
So take the following example
Its eigenvalues are all positive (1.2, 1.2, 0.6), and you can create vectors with negative correlation.
let's start with a correlation matrix for 3 variables
non-negative definiteness creates constraints for pairwise correlations which can be written as
For example, if , the values of is restricted by , which forces . On the other hand if , can be within range.
Answering the interesting follow up question by @amoeba: "what is the lowest possible correlation that all three pairs can simultaneously have?"
Let , Find the smallest root of , which will give you . Perhaps not surprising for some.
A stronger argument can be made if one of the correlations, say . From the same equation , we can deduce that . Therefore if two correlations are , third one should be .
A simple R function to explore this:
f <- function(n,trials = 10000){
count <- 0
for(i in 1:trials){
a <- runif(n)
b <- runif(n)
c <- runif(n)
if(cor(a,b) < 0 & cor(a,c) < 0 & cor(b,c) < 0){
count <- count + 1
}
}
count/trials
}
의 함수는 0 n
에서 f(n)
시작하여 0이 아닌 n = 3
값 (일반 값은 약 0.06)으로 증가한 다음 약 0.11로 증가한 n = 15
후 안정화됩니다.
따라서 세 가지 상관 관계를 모두 음수로 만들 수있을뿐만 아니라 (적어도 균일 한 분포의 경우)별로 드문 일은 아닙니다.