두꺼운 꼬리 분포의 순서 통계의 점근 적 정규성


9

배경 : 두꺼운 꼬리 분포를 사용하여 모델링하려는 표본이 있습니다. 관측치의 확산이 상대적으로 큰 극단적 인 값이 있습니다. 내 생각은 이것을 일반 파레토 분포로 모델링하는 것이 었습니다. 이제 경험적 데이터의 0.975 Quantile (약 100 개의 데이터 포인트)이 데이터에 적합한 Generalized Pareto 분포의 0.975 Quantile보다 낮습니다. 이제이 차이가 걱정되는지 확인하는 방법이 있습니까?

Quantile의 점근 분포는 다음과 같이 주어진다는 것을 알고 있습니다.

Quantile의 점근 적 정규성

그래서 나는 데이터의 피팅에서 얻은 것과 같은 매개 변수를 사용하여 0.975 Quantile의 일반화 된 파레토 분포에 대해 95 % 신뢰 구간을 그려서 호기심을 즐겁게하는 것이 좋은 생각이라고 생각했습니다.

GPD

보시다시피, 우리는 여기서 극단적 인 가치를 가지고 일하고 있습니다. 그리고 확산이 엄청 나기 때문에 밀도 함수는 매우 작은 값을 가지므로 신뢰 구간이±1012 위의 점근 적 정규식의 분산을 사용하여 :

±1.960.9750.025(에프(0.975))2

따라서 이것은 의미가 없습니다. 긍정적 결과 만있는 분포가 있으며 신뢰 구간에는 음수 값이 포함됩니다. 그래서 여기에 무언가가 일어나고 있습니다. 나는 0.5 분위수 주위에 밴드를 계산하는 경우, 밴드가 아닌 거대한, 그러나 아직도 거대한.

나는 이것이 다른 배포판, 즉 (1,1)분포. 시뮬레이션=100 에서 관찰 (1,1)Quantile이 신뢰 대역 내에 있는지 확인하십시오. 신뢰 구간 내에있는 모의 관측치의 0.975 / 0.5 Quantile의 비율을보기 위해이 10000 배를 수행합니다.

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

편집 : 코드를 수정했으며 두 Quantile은 n = 100σ=1. 표준 편차를σ=2밴드 내에서 히트가 거의 없습니다. 그래서 질문은 여전히 ​​유효합니다.

EDIT2 : 도움이되는 신사의 의견에서 지적했듯이 위의 첫 번째 EDIT에서 내가 주장한 것을 철회합니다. 실제로이 CI는 정규 분포에 적합합니다.

순서 통계의 이러한 점근 적 정규성은 어떤 후보 분포가 주어지면 일부 관측 된 Quantile이 가능한지 확인하려는 경우 사용하기에 매우 나쁜 측정 방법입니까?

직관적으로, 분포의 분산 (데이터를 생성했다고 생각하는 데이터 또는 데이터를 만든 것으로 알고있는 R 예)과 관찰 수 사이의 관계가있는 것처럼 보입니다. 1000 개의 관측치와 거대한 분산이있는 경우이 대역은 나쁩니다. 1000 개의 관측치와 작은 분산이있는 경우 이러한 대역이 의미가있을 수 있습니다.

아무도 나를 위해 이것을 정리해야합니까?


2
밴드는 점근 정규 분포의 분산을 기반으로하지만 점근 정규 분포의 표준 편차를 기반으로해야합니다 (대역 = 1.96 * sqrt ((0.975 * 0.025) / (100 * (f_norm) ^ 2)), 그리고 일반화 된 파레토 거리에 대해서도 비슷합니다.) 대신 시도해보고 어떻게되는지보십시오.
jbowman

@jbowman 지적 해 주셔서 감사합니다! 내가 고칠 게요!
Erosennin

@jbowman은 밴드를 작게 만들고 예제에서는 실제로 적은 히트를주는 R 코드를 사용합니다. 계산이 잘못 된 또 다른 오류 였지만 지금 수정했습니다. 당신이 저를 이끌 었으니 정말 고맙습니다! GDP의 경우 더 작은 밴드는 매우 좋은 소식이지만 여전히 사용할 수 없을 정도로 큰 걱정입니다. 표본 크기와 분산의 관계가 표본 크기 만 아니라 큰 것이어야한다는 것 외에는 다른 테이크 아웃을 볼 수 없습니다.
Erosennin

걱정 마! 나는 당신이 올바르게있어 참고()첫 번째 공식 앞에서; 에서처럼 양면을 나누면 band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))도움이 될 수 있습니다. 처음 봤는데 미안 해요. (아마도이 ​​문제를 해결했지만 질문의 관련 부분을 업데이트하지 않았습니다.)
jbowman

1
그렇습니다, 나는주의를 기울이지 않았습니다. OTOH, 코드를 실행할 때 모든 곳에서 sd = 1을 sd = 2로 변경하면 0.975 Quantile에서 각각 0.9683 및 0.9662에서 거의 정확히 동일한 비율의 히트를 얻습니다. 당신이 어딘가에 sd = 1을 놓쳤는 지 궁금합니다.σ=2운영?
jbowman

답변:


3

나는 당신의 파생물 이이 페이지의 것과 같은 것에서 나온다고 가정합니다 .

긍정적 결과 만있는 분포가 있으며 신뢰 구간에는 음수 값이 포함됩니다.

음, 정상적인 근사값이 주어집니다. 정규 근사가 음수 값을 제공하는 것을 막을 수있는 것은 없으므로 표본 크기가 작거나 분산이 클 때 경계 값에 대한 근사치입니다. 표본 크기를 크랭크하면 표본 크기가 구간의 너비에 대한 표현식의 분모에 있으므로 구간이 줄어 듭니다. 분산은 밀도를 통해 문제에 들어갑니다. 동일한 평균에 대해 분산이 높을수록 밀도가 다르고 여백이 높고 중심 근처가 낮아집니다. 밀도가 낮을수록 밀도가 식의 분모에 있으므로 신뢰 구간이 더 넓습니다.

일부 인터넷 검색 에서이 페이지를 찾았습니다. 이 페이지 에서는 이항 분포에 대한 정규 근사를 사용하여 신뢰 한계를 구성했습니다. 기본 아이디어는 각 관측치가 확률 q로 분위수 아래로 떨어 지므로 분포가 이항식이라는 것입니다. 표본 크기가 충분히 크면 (중요) 이항 분포는 평균이있는 정규 분포에 의해 근사화됩니다. 그리고 분산 (1). 따라서 신뢰 하한은 색인을 갖습니다제이=1.96(1)신뢰 상한에는 색인이 있습니다. 케이=1.96(1). 가능성이 있습니다케이> 또는 제이<1가장자리 근처의 Quantile로 작업 할 때 내가 찾은 참조는 침묵합니다. 최대 값이나 최소값을 관련 값으로 취급하기로 결정했습니다.

다음 코드를 다시 작성하면서 경험적 데이터에 대한 신뢰 한계를 구성하고 이론적 Quantile이 그 안에 속하는지 테스트했습니다. 관찰 된 데이터 세트의 Quantile이 랜덤 변수이기 때문에 더 이해가됩니다. n> 1000의 적용 범위는 ~ 0.95입니다. n = 100의 경우 0.85에서 더 나쁘지만 표본 크기가 작은 꼬리 근처의 Quantile에서는 예상됩니다.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

"충분히 큰"샘플 크기를 결정하는 한, 클수록 좋습니다. 특정 표본이 "충분히 큰"지 여부는 당면한 문제와 신뢰 한계의 범위와 같은 것들에 대해 얼마나 까다로운 지에 달려 있습니다.


기여해 주셔서 감사합니다! 나는 절대적인 "큰"샘플이 어떻게 존재하는지 보지 못했고 그 차이를 설명해야한다고 지적했다. 이것이 CI를 구성하는 방식과 어떻게 관련이 있는지 궁금하지만 일반적으로도 마찬가지입니다. 파생에 관해서는, 예를 들어 여기에서 볼 수 있습니다 : math.mcgill.ca/~dstephens/OldCourses/556-2006/… 제가 구성한 CI는 그 링크의 예에서 따릅니다. 당신은 "나는 경험적 데이터에 대한 신뢰 한계를 구성했다 ..."라고 쓰고 이것은 당신에게 더 의미가 있습니다. CI에 대해 좀 더 자세히 설명해 주시겠습니까?
Erosennin

아, 네, 당신은 올바른 파생 링크가 있습니다. 미안 내 잘못이야.
Erosennin

분포의 분산이 사용중인 근사치에 어떻게 영향을 미치는지, "대형"표본의 의미에 대해 좀 더 자세히 설명하기 위해 다시 편집했습니다. 귀하의 CI는 이론적 인 가치에 중점을두고, 나의 CI는 경험적인 것에 중점을 둡니다. 나는 경험적 Quantile을 이론적 인 Quantile과 비교하기 위해 경험적 Quantile에서 간격을 구성해야한다고 생각합니다. 또한 내가 사용한 근사값은 시작하는 중앙 한계 정리에 대한 호소력이 없기 때문에 "정상적인"근사값을 줄입니다.
atiretoo-복원 모니카

노력해 주셔서 감사합니다. 내 질문이 더 명확 할 수 있습니다. 밀도와 샘플 크기가 분산에 어떤 영향을 미치는지 이미 알고있었습니다. 그러나 다시, 나의 나쁜, 나는 더 분명 할 수 있었다. 차이를 고려한 것으로 전환해야하는 것은 "점근 법"입니다. 글쎄, 당신은 또한 이론적 가치를 중심으로 CI를 중심에 두었습니다. n * q는 정확히 이론적 인 가치입니다. 밴드를 구성 할 때 본질적으로 다른 방법으로 만 나와 같은 작업을 수행했습니다.
Erosennin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.