스퓨리어스 상관의 예상 값


12

우리는 그리 크기의 각 샘플 일반 상태에서 독립적으로 분배한다.n ( μ , σ 2 )Nn(μ,σ2)

로부터 샘플 우리는 서로 가장 높은 (절대) 피어슨 상관 관계를 가지고있는이 개 샘플을 선택합니다.N

이 상관 관계의 예상 값은 얼마입니까?

감사합니다 [PS 이것은 숙제가 아닙니다]


2
(+1) 그것은 상당히 도전적인 숙제 질문을 할 것입니다 :-). 일반적인 대답이 필요 합니까? 아니면 또는 의 특정 값에주의를 집중시킬 수 있습니까? 예를 들어, 이 보다 훨씬 클 때 좋은 근사치를 개발할 수 있습니다 . 다른 경우에는 다른 근사가 필요합니다. n n NNnnN
whuber

1
나는 일반적인 대답을 원했지만 가정 은 괜찮습니다! 과 의 특정 값의 경우 시뮬레이션을 통해 그러한 특정 사례를 볼 수 있기 때문에 흥미롭지는 않지만 여전히 관심이있을 수 있습니다. N의 Nn>>NNn
P Sellaz

1
나는 실수 할 수는 있지만 실제 유틸리티의 일반적인 해결책은 아닐 것입니다. 기하학과 선형 대수의 인터페이스에서 열린 문제와 상당히 밀접한 관련이 있습니다. 응용 분야에서, 이러한 양에 대한 정보의 필요성은 예를 들어 압축 감지에서 발생합니다.
추기경

1
FWIW, 이것은 방금 실행 한 시뮬레이션의 결과입니다. Normal (0,1)을 사용하여 평균 상관 관계 (1000 시뮬레이션 이상) 및 샘플 수 이 대략 와 관련이 있음을 발견했습니다. 선형 회귀 모형을 사용하여 대해 및 입니다. 모델 적합성과 일반적인 진단은 상당히 좋았습니다. 또한 평균 상관 관계가 대략 정규 분포 (약간 오른쪽으로 기울어 짐) 인 것으로 나타났습니다. N ρ = 0.025 + 0.113 (LN) ( N ) - 0.008 LN ( N ) (2) N = 100 (4) N NρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
P Sellaz

답변:


9

이 문제를 해결하는 다음 기사를 찾았습니다. Jiang, Tiefeng (2004). 표본 상관 행렬의 가장 큰 항목의 점근 분포 적용 확률의 연대기, 14 (2), 865-880

Jiang은 통계량의 점근 분포를 보여줍니다.여기서 는 길이 ( ) 의 번째와 번째 랜덤 벡터 간의 상관 관계 입니다.Ln=max1i<jN|ρij|ρijijnij

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
여기서 은 종이에 존재하는 것으로 가정하고 은 .a=limnn/NNn

분명히이 결과는 충분한 수의 유한 모멘트를 갖는 분포 분포에 적용됩니다 ( 편집 : 아래의 @ cardinal 's comment 참조). Jiang은 이것이 Type I 극단 값 분포라고 지적합니다. 위치와 규모는

σ=2,μ=2log(1a28π).

Type-I EV 분포의 예상 값은 . 여기서 오일러 상수를 나타냅니다. 그러나, 의견에서 언급 된 바와 같이, 분포의 수렴 자체가 수단의 제한 분포에 대한 수렴을 보장하지는 않는다.μ+σγγ

경우 우리는이 경우 같은 결과를 보여줄 수의 다음 점근 적 기대 값것nLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

이것은 최대 제곱 상관의 점근 적 예상 값을 제공하는 반면, 질문은 최대 절대 상관의 예상 값을 요구했습니다. 100 %가 아니라 가까운 거리입니다.

나는 1) 내 시뮬레이션에 문제가 있거나 (아마도) 2) 내 전사 / 대수에 문제가 있거나 (또는) 3) 근사치가 유효하지 않다고 생각하게하는 몇 가지 간단한 시뮬레이션을 수행했습니다. 사용 된 및 값 . 아마도이 근사를 사용하여 OP가 일부 시뮬레이션 결과로 계량 될 수 있습니까?nN


2
그리고 제쳐두고 : 나는이 질문을 정말로 좋아했다-나는이 질문에 대해 전에 궁금했다. Type-I 배포판에 대한 연결에 놀랐습니다. 난 그냥 수학으로 이해 이해 바랍니다 ...
jmtroos

1
(+1) 좋은 발견! 이 의 양의 제곱근이 최대 절대 상관의 예상 값과 가정 할 수 있다고 생각합니다 . 기대에 대한 당신의 표현에서, 우리는 을 포함하는 모든 부분을 꺼내서 산출 할 수는 없습니다 : ? 어쨌든, 나는 이것을 내 시뮬레이션과 비교했으며 꽤 가깝습니다! 내 R 코드는 너무 조잡하기 때문에 오늘이나 내일 나중에 정리하고 게시하려고 노력할 것입니다.Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz

BTW, 논문은 여기에서 직접 구할 수 있습니다 projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz

3
(+1)이 문서는 아주 좋은 논문으로, 나는 그것을 훑어 보았지만 여기서는 조심 해야합니다 . 일부 비고 : ( 1 ) 결과는 정권 에 대한 것이므로 벡터의 치수는 이러한 결과에 대해 고려중인 벡터 수에 대략 비례하여 증가해야합니다. 개최합니다. ( 2 )이 경우에도 결과는 "임의의"분포를 유지하지 않습니다. 실제로, 논문의 조건은 무작위 변수가 본질적으로 30 번째 모멘트를 유한하게하기 위해 "거의 지수 적으로 경계가있는"변수를 요구합니다! (계속)n/pγ(0,)
추기경

3
( 3 ) 분포의 수렴이 수단의 제한 분포에 대한 수렴을 보장 하지는 않는다 . 이를 위해 우리는 보통 집합의 통합 성을 균일하게하는 것과 비슷한 것을 사용합니다 . 이것은 논문에서 보여지지 않았으며 극단적 인 가치 분포를 다루기 때문에 사실이 아닐 수도 있습니다. 이 현상에 대해 내가 가장 좋아하는 예 중 하나는 분포로 수렴하는 임의의 변수 시퀀스 이지만 선택한 모든 양의 상수로 수렴하도록 할 수 있습니다. χ 2 1{Ln}χ12
추기경

2

@jmtroos가 제공 한 답변 외에도 다음은 시뮬레이션에 대한 세부 정보와 Jiang (2004) 의 @jmtroos의 기대 파생 값과의 비교 입니다.

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

이 기대 값은 작은 대한 시뮬레이션 값 보다 높고 큰 대한 아래에있는 것으로 보이며 증가함에 따라 약간 분기되는 것처럼 보입니다 . 그러나 논문에서 분포가 점근 적이라고 주장하는 것처럼 이 증가함에 따라 차이가 줄어 듭니다 . 나는 다양한 을 시도했다 . 아래 시뮬레이션은 사용합니다 . 저는 R을 처음 접했기 때문에 코드를 더 좋게 만드는 힌트 나 제안을 따뜻하게 환영합니다.N N n n [ 100 , 500 ] n = 200NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

다른 답변에 대한 내 의견을 참조하십시오.이 답변은 귀하가 주목하는 일부 불일치를 설명하는 데 도움이 될 수 있습니다.
추기경
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.