수백 개의 측정 값이 있습니다. 이제 모든 측정 값을 모든 측정 값과 연관시키기 위해 일종의 소프트웨어를 사용하는 것을 고려하고 있습니다. 이는 수천 개의 상관 관계가 있음을 의미합니다. 이 중 데이터가 완전히 임의적 임에도 불구하고 (통계적으로) 높은 상관 관계가 있어야합니다 (각 측정 값에는 약 100 개의 데이터 포인트 만 있음).
상관 관계를 찾을 때 상관 관계를 찾는 것이 얼마나 어려운지에 대한 정보를 어떻게 포함합니까?
나는 통계에 높은 수준이 아니므로, 나와 함께 견뎌주십시오.
R
이 기계의 @tmo 는 300 x 100 행렬에 대한 최대 상관 계수의 널 순열 분포를 1000 번 실현하는 데 18 초가 걸립니다 x
.correl <- function(x, k=1) { n <- dim(x)[2] * (dim(x)[2]-1) / 2; v <- cor(x); sort(v[lower.tri(v)])[(n-k+1):n] }; sim <- replicate(1000, correl(apply(x,2,sample)))