우리는 그리 크기의 각 샘플 일반 상태에서 독립적으로 분배한다.n ( μ , σ 2 )
로부터 샘플 우리는 서로 가장 높은 (절대) 피어슨 상관 관계를 가지고있는이 개 샘플을 선택합니다.
이 상관 관계의 예상 값은 얼마입니까?
감사합니다 [PS 이것은 숙제가 아닙니다]
우리는 그리 크기의 각 샘플 일반 상태에서 독립적으로 분배한다.n ( μ , σ 2 )
로부터 샘플 우리는 서로 가장 높은 (절대) 피어슨 상관 관계를 가지고있는이 개 샘플을 선택합니다.
이 상관 관계의 예상 값은 얼마입니까?
감사합니다 [PS 이것은 숙제가 아닙니다]
답변:
이 문제를 해결하는 다음 기사를 찾았습니다. Jiang, Tiefeng (2004). 표본 상관 행렬의 가장 큰 항목의 점근 분포 적용 확률의 연대기, 14 (2), 865-880
Jiang은 통계량의 점근 분포를 보여줍니다.여기서 는 길이 ( ) 의 번째와 번째 랜덤 벡터 간의 상관 관계 입니다.
분명히이 결과는 충분한 수의 유한 모멘트를 갖는 분포 분포에 적용됩니다 ( 편집 : 아래의 @ cardinal 's comment 참조). Jiang은 이것이 Type I 극단 값 분포라고 지적합니다. 위치와 규모는
Type-I EV 분포의 예상 값은 . 여기서 오일러 상수를 나타냅니다. 그러나, 의견에서 언급 된 바와 같이, 분포의 수렴 자체가 수단의 제한 분포에 대한 수렴을 보장하지는 않는다.
경우 우리는이 경우 같은 결과를 보여줄 수의 다음 점근 적 기대 값것
이것은 최대 제곱 상관의 점근 적 예상 값을 제공하는 반면, 질문은 최대 절대 상관의 예상 값을 요구했습니다. 100 %가 아니라 가까운 거리입니다.
나는 1) 내 시뮬레이션에 문제가 있거나 (아마도) 2) 내 전사 / 대수에 문제가 있거나 (또는) 3) 근사치가 유효하지 않다고 생각하게하는 몇 가지 간단한 시뮬레이션을 수행했습니다. 사용 된 및 값 . 아마도이 근사를 사용하여 OP가 일부 시뮬레이션 결과로 계량 될 수 있습니까?
@jmtroos가 제공 한 답변 외에도 다음은 시뮬레이션에 대한 세부 정보와 Jiang (2004) 의 @jmtroos의 기대 파생 값과의 비교 입니다.
이 기대 값은 작은 대한 시뮬레이션 값 보다 높고 큰 대한 아래에있는 것으로 보이며 증가함에 따라 약간 분기되는 것처럼 보입니다 . 그러나 논문에서 분포가 점근 적이라고 주장하는 것처럼 이 증가함에 따라 차이가 줄어 듭니다 . 나는 다양한 을 시도했다 . 아래 시뮬레이션은 사용합니다 . 저는 R을 처음 접했기 때문에 코드를 더 좋게 만드는 힌트 나 제안을 따뜻하게 환영합니다.N N n n ∈ [ 100 , 500 ] n = 200
set.seed(1)
ns <- 500
# number of simulations for each N
n <- 200
# length of each vector
mu <- 0
sigma <- 1
# parameters for the distribution we simulate from
par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns
y<-vector(mode = "numeric")
#vector to store the mean correlations
k<- 1
#index for y
for (N in x) {
# loop over a range of N
dt <- matrix(nrow=n,ncol=N)
J <- vector(mode = "numeric")
# vector to store the simulated largest absolute
# correlations for each N
for (j in 1:ns) {
# for each N, simulated ns times
for (i in 1:N) {
dt[,i] <- rnorm(n,mu,sigma)
}
# perform the simulation
M<-matrix(cor(dt),nrow=N,ncol=N)
m <- M
diag(m) <- NA
J[j] <- max(abs(m), na.rm=TRUE)
# obtain the largest absolute correlation
# these 3 lines came from stackoverflow
}
hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4)))
y[k]<-mean(J)
k=k+1
}
lm1 <- lm(y~log(x))
summary(lm1)
logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations
# Jiang 2004 paper, computation:
gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)
plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation