스퓨리어스 상관의 예상 값

우리는 그리 크기의 각 샘플 일반 상태에서 독립적으로 분배한다. $N$ $n$ $(\mu,\sigma^2)$

로부터 샘플 우리는 서로 가장 높은 (절대) 피어슨 상관 관계를 가지고있는이 개 샘플을 선택합니다. $N$

이 상관 관계의 예상 값은 얼마입니까?

감사합니다 [PS 이것은 숙제가 아닙니다]

— P 셀라 즈
소스

(+1) 그것은 상당히 도전적인 숙제 질문을 할 것입니다 :-). 일반적인 대답이 필요 합니까? 아니면 또는 의 특정 값에주의를 집중시킬 수 있습니까? 예를 들어, 이 보다 훨씬 클 때 좋은 근사치를 개발할 수 있습니다 . 다른 경우에는 다른 근사가 필요합니다.

N

$N$

n

$n$

n

$n$

N

$N$

— whuber

나는 일반적인 대답을 원했지만 가정 은 괜찮습니다! 과 의 특정 값의 경우 시뮬레이션을 통해 그러한 특정 사례를 볼 수 있기 때문에 흥미롭지는 않지만 여전히 관심이있을 수 있습니다.

n >> N

$n>>N$

N

$N$

n

$n$

— P Sellaz

나는 실수 할 수는 있지만 실제 유틸리티의 일반적인 해결책은 아닐 것입니다. 기하학과 선형 대수의 인터페이스에서 열린 문제와 상당히 밀접한 관련이 있습니다. 응용 분야에서, 이러한 양에 대한 정보의 필요성은 예를 들어 압축 감지에서 발생합니다.

— 추기경

FWIW, 이것은 방금 실행 한 시뮬레이션의 결과입니다. Normal (0,1)을 사용하여 평균 상관 관계 (1000 시뮬레이션 이상) 및 샘플 수 이 대략 와 관련이 있음을 발견했습니다. 선형 회귀 모형을 사용하여 대해 및 입니다. 모델 적합성과 일반적인 진단은 상당히 좋았습니다. 또한 평균 상관 관계가 대략 정규 분포 (약간 오른쪽으로 기울어 짐) 인 것으로 나타났습니다.

ρ

$\rho$

N

$N$

ρ = 0.025 + 0.113 \ln (N) - 0.008 \ln (N)^{2}

$\rho=0.025+0.113\ln(N)-0.008\ln(N)^2$

n = 100

$n=100$

4 \leq N \leq n

$4\leq N \leq n$

— P Sellaz

답변:

이 문제를 해결하는 다음 기사를 찾았습니다. Jiang, Tiefeng (2004). 표본 상관 행렬의 가장 큰 항목의 점근 분포 적용 확률의 연대기, 14 (2), 865-880

Jiang은 통계량의 점근 분포를 보여줍니다.여기서 는 길이 ( ) 의 번째와 번째 랜덤 벡터 간의 상관 관계 입니다. $L_n = \max_{1\leq i<j\leq N} |\rho_{ij}|$ $\rho_{ij}$ $i$ $j$ $n$ $i\neq j$

lim_{n \to \infty} Pr [n L_{n}^{2} - 4 \log n + \log (\log (n)) \leq y] = \exp (- \frac{1}{a^{2} \sqrt{8 π}} \exp (- y / 2)),

$\lim_{n \to \infty} \Pr[ nL_n^2 - 4\log n + \log(\log(n)) \leq y] = \exp\left(-\frac{1}{a^2\sqrt{8\pi}}\exp(-y/2)\right) \,,$ 여기서 은 종이에 존재하는 것으로 가정하고 은 .

a = lim_{n \to \infty} n / N

$a = \lim_{n\to\infty} n/N$

N

$N$

n

$n$

분명히이 결과는 충분한 수의 유한 모멘트를 갖는 분포 분포에 적용됩니다 ( 편집 : 아래의 @ cardinal 's comment 참조). Jiang은 이것이 Type I 극단 값 분포라고 지적합니다. 위치와 규모는

σ = 2, μ = 2 \log (\frac{1}{a^{2} \sqrt{8 π}}) .

$\sigma=2,\quad\mu = 2\log\left( \frac{1}{a^2\sqrt{8\pi}} \right).$

Type-I EV 분포의 예상 값은 . 여기서 오일러 상수를 나타냅니다. 그러나, 의견에서 언급 된 바와 같이, 분포의 수렴 자체가 수단의 제한 분포에 대한 수렴을 보장하지는 않는다. $\mu + \sigma \gamma$ $\gamma$

경우 우리는이 경우 같은 결과를 보여줄 수의 다음 점근 적 기대 값것 $n L_n^2 -4\log n + \log(\log(n))$

lim_{n \to \infty} E [n L_{n}^{2} - 4 \log n + \log (\log (n))] = - 2 \log (a^{2} \sqrt{8 π}) + 2 γ .

$\lim_{n\to\infty} \mathbb E\left[ nL_n^2 - 4\log n + \log(\log(n)) \right] = -2\log\left(a^2\sqrt{8\pi} \right) + 2\gamma \,.$

이것은 최대 제곱 상관의 점근 적 예상 값을 제공하는 반면, 질문은 최대 절대 상관의 예상 값을 요구했습니다. 100 %가 아니라 가까운 거리입니다.

나는 1) 내 시뮬레이션에 문제가 있거나 (아마도) 2) 내 전사 / 대수에 문제가 있거나 (또는) 3) 근사치가 유효하지 않다고 생각하게하는 몇 가지 간단한 시뮬레이션을 수행했습니다. 사용 된 및 값 . 아마도이 근사를 사용하여 OP가 일부 시뮬레이션 결과로 계량 될 수 있습니까? $n$ $N$

— jmtroos
소스

그리고 제쳐두고 : 나는이 질문을 정말로 좋아했다-나는이 질문에 대해 전에 궁금했다. Type-I 배포판에 대한 연결에 놀랐습니다. 난 그냥 수학으로 이해 이해 바랍니다 ...

— jmtroos

(+1) 좋은 발견! 이 의 양의 제곱근이 최대 절대 상관의 예상 값과 가정 할 수 있다고 생각합니다 . 기대에 대한 당신의 표현에서, 우리는 을 포함하는 모든 부분을 꺼내서 산출 할 수는 없습니다 : ? 어쨌든, 나는 이것을 내 시뮬레이션과 비교했으며 꽤 가깝습니다! 내 R 코드는 너무 조잡하기 때문에 오늘이나 내일 나중에 정리하고 게시하려고 노력할 것입니다.

L_{n}

$L_n$

n

$n$

E [L_{n}^{2}] = \frac{1}{n} {2 \log (\frac{N^{2}}{n^{2} \sqrt{8 π}}) + 2 γ + 4 \log n - \log (\log (n))}

$E\left[L_n^2 \right]= \frac{1}{n} \left \{ 2\log\left( \frac{N^2}{n^2\sqrt{8\pi}} \right) + 2\gamma+ 4\log n - \log(\log(n))\right \}$

— P Sellaz

BTW, 논문은 여기에서 직접 구할 수 있습니다 projecteuclid.org/DPubS/Repository/1.0/…

— P Sellaz

(+1)이 문서는 아주 좋은 논문으로, 나는 그것을 훑어 보았지만 여기서는 조심 해야합니다 . 일부 비고 : ( 1 ) 결과는 정권 에 대한 것이므로 벡터의 치수는 이러한 결과에 대해 고려중인 벡터 수에 대략 비례하여 증가해야합니다. 개최합니다. ( 2 )이 경우에도 결과는 "임의의"분포를 유지하지 않습니다. 실제로, 논문의 조건은 무작위 변수가 본질적으로 30 번째 모멘트를 유한하게하기 위해 "거의 지수 적으로 경계가있는"변수를 요구합니다! (계속)

n / p \to γ \in (0, \infty)

$n/p \to \gamma \in (0,\infty)$

— 추기경

( 3 ) 분포의 수렴이 수단의 제한 분포에 대한 수렴을 보장 하지는 않는다 . 이를 위해 우리는 보통 집합의 통합 성을 균일하게하는 것과 비슷한 것을 사용합니다 . 이것은 논문에서 보여지지 않았으며 극단적 인 가치 분포를 다루기 때문에 사실이 아닐 수도 있습니다. 이 현상에 대해 내가 가장 좋아하는 예 중 하나는 분포로 수렴하는 임의의 변수 시퀀스 이지만 선택한 모든 양의 상수로 수렴하도록 할 수 있습니다.

{L_{n}}

$\{L_n\}$

χ_{1}^{2}

$\chi^2_1$

— 추기경

@jmtroos가 제공 한 답변 외에도 다음은 시뮬레이션에 대한 세부 정보와 Jiang (2004) 의 @jmtroos의 기대 파생 값과의 비교 입니다.

E [L_{n}^{2}] = \frac{1}{n} {2 \log (\frac{N^{2}}{n^{2} \sqrt{8 π}}) + 2 γ + 4 \log n - \log (\log (n))}

$E\left[L_n^2 \right]= \frac{1}{n} \left \{ 2\log\left( \frac{N^2}{n^2\sqrt{8\pi}} \right) + 2\gamma+ 4\log n - \log(\log(n))\right \}$

이 기대 값은 작은 대한 시뮬레이션 값 보다 높고 큰 대한 아래에있는 것으로 보이며 증가함에 따라 약간 분기되는 것처럼 보입니다 . 그러나 논문에서 분포가 점근 적이라고 주장하는 것처럼 이 증가함에 따라 차이가 줄어 듭니다 . 나는 다양한 을 시도했다 . 아래 시뮬레이션은 사용합니다 . 저는 R을 처음 접했기 때문에 코드를 더 좋게 만드는 힌트 나 제안을 따뜻하게 환영합니다. $N$ $N$ $N$ $n$ $n \in [100,500]$ $n=200$

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

— P 셀라 즈
소스

다른 답변에 대한 내 의견을 참조하십시오.이 답변은 귀하가 주목하는 일부 불일치를 설명하는 데 도움이 될 수 있습니다.

— 추기경