어떻게에서 가장 큰 용어에


11

고려 i=1N|Xi| 여기서 X1,,XN 은 iid이고 CLT는 유지합니다.
가장 큰 항의 총합이 총합의 절반에 합됩니까?
예를 들어, 10 + 9 + 8 (10 + 9 + 8 + 1) / 2 : 용어의 30 %가 전체의 절반에 도달합니다.

밝히다
sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

halfsum ( N,μ,σ )에 대한 일반적인 점근 결과가 있습니까?
간단하고 직관적 인 파생이 좋을 것입니다.

(약간의 몬테 카를로는 때때로 halfsum (제안 N ) N / 4 정도
의의 가장 큰 1/4 Xi . 1/2 총까지 추가가
나는 0.24 얻을 N halfnormal를 들어, 0.19 N 대한 N = 20, 50, 100의 경우 지수 .)


3
CLT와 같은 보편적 인 결과를 기대하지 마십시오. 예를 들어, uniform (0,1) 변수에 대한 답은 uniform (1000,1001) 변수에 대한 답과 매우 다릅니다!
whuber

물론, 하프 섬은 물론 평균과 SD에 달려 있습니다. 그러나 왜 ~ N / 5 지수?
데니스

2
점근, 데니스 상기 halfsum 대한 컷오프 값 것이다 되는 X 0 t F ( t ) (D) t = 1 / 2 , f는 대한 PDF이다 | X 나는 | ; 질문은 N ( 1 - F ( x ) )을 요청합니다 ( F| X i | 의 cdf입니다 ). 유니폼 [ 0 , 1 ]의 경우x0xtf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1]배포는 @Dilip의 답변을 얻습니다. 지수의 경우 . x0.186682NN/5
whuber

답변:


2

아니요, 일반적인 점근 적 결과는 없습니다. 하자 순서화되는 x를 I 여기서, X [ 1 것은 ] 가장 크다.x[1]x[N]xix[1]

다음 두 가지 예를 고려하십시오.

1) 입니다. 분명히 CLT는 유지합니다. 에 대한 M = 1 관측치 만 필요 합니다. M j = 1 | x [ j ] | 1P(x=0)=1M=1. j=1M|x[j]|12N|xi|

2) 입니다. 분명히 CLT는 유지합니다. 당신이 필요로하는 M = N / 2 에 대한 관찰을 Σ M의 J = 1 | x [ j ] | 1P(x=1)=1M=N/2.j=1M|x[j]|12N|xi|

사소한 예를 들어, Bernoulli 분포 :

3) 입니다. 다시 한번 CLT가 유지됩니다. 조건을 충족하려면 관측치의 p N / 2 가 필요 합니다. p 를 0과 1 사이에서 다양하게 하면 원하는대로 예제 1 또는 예제 2에 가깝게 얻을 수 있습니다.P(x=1)=p, P(x=0)=1ppN/2p


4
답이 N / 2 사이에있을 수 있지만, 이것이 일반적인 결과가 존재하지 않음을 의미하지는 않습니다. 이것이 의미하는 것은 분수가 평균 및 SD와 같은 기본 분포의 일부 속성에 의존하는 답을 고려해야한다는 것입니다. 이것들은 CLT와 함께 x [ i ] 가 합계에 비해 어떻게 분포 되는지에 대한 구체적이고 정량적 인 정보를 제공하기에 충분 하므로 그러한 결과를 기대하는 것이 합리적입니다. 0N/2x[i]
whuber

1

다음은 균일하게 분포 된 랜덤 변수에 대해 약간 다른 추정치를 제공하는 조잡한 주장입니다. [ 0 , 1 ] 에 균일하게 분포 된 연속 랜덤 변수 라고 가정합니다 . 그러면 i X i의 평균값은 N / 2 입니다. 놀랍고 완전히 믿을 수없는 우연의 일치로 합은 정확히 N / 2 와 같다고 가정합니다 . 따라서 우리는 X 의 가장 큰 값 중 N / 4 이상 까지 몇 개의 합계 를 추정하고 싶습니다 . 이제 N 샘플 의 히스토그램 ( NXi[0,1]iXiN/2N/2XN/4NN매우 큰) 균일 분포 분포에서 추출 0 에서 1 까지 대략 평평 하고, 따라서 x , 0 < x < 1에 대해 , ( 1 - x ) N 개의 샘플이 x 에서 1 사이에 대략 균일하게 분포 됩니다 . 이 표본들은 평균값 ( 1 + x ) / 2 이고 합은 ( 1 - x ) N (U[0,1]01x0<x<1(1x)Nx1(1+x)/2 입니다. x 1 / 의 합이 N / 4 를초과(1x)N(1+x)/2)=(1x2)N/2N/4 . 따라서(11/ 의 합x1/2가장 큰 샘플은N/4를초과 합니다.(11/2)N0.3NN/4

이것을 시도하고 일반화 할 수 있습니다. 경우 다음 주어진 대한 Y , 우리가 원하는 X는 같은 것으로 그 ( 1 - X 2 ) N / 2 = Y / 2 Y는 평균이 정상 N / 2 이고 분산이 N / 12 . 따라서 Y 값으로 조절 하면 x = iXi=YYx(1x2)N/2=Y/2YN/2N/12Y . Y의 밀도를 곱하고통합하여 (Y=0에서Y=N) 랜덤 합의 절반을 초과하는 가장 큰 샘플의 평균 수를 찾습니다.x=1(Y/N)YY=0Y=N


간격 제한되는 두 점 사이의 거리는 거리 가 1 보다 작아야하기 때문에 지수 랜덤 변수는 ( 0 , )의 값을 갖기 때문에 지수 적으로 분포 될 수 없습니다 . 어떤 것은 참일 경우이다 Y 1 , Y 2 , ... , Y N + 1 독립 지수 확률 변수하고있는 에어컨Y 최대 = α차 통계량 Y ( 1(0,1)1(0,)Y1,Y2,,Yn+1Ymax=α (0,α)로 균일하게 분포됩니다. 예를 들어,동반자 사이트 math.SE에서이 질문과 답변을참조하십시오. (계속)Y(1),Y(2),,Y(n)(0,α)
Dilip Sarwate

어쨌든, 나의 주장은 균일 한 분포에서 정렬 된 표본 사이의 거리 를 사용하지 않습니다 .
Dilip Sarwate

네 말이 맞아, 난 널 오해 했어 부수적 인 질문으로, 스케일링 후 지수 랜덤 분포 점 사이의 조각이 아닌가? [Wolfram Demonstrations Project의 고장난 스틱 규칙] ( demos.wolfram.com/BrokenStickRule ) 기하 급수적으로 보인다. 증명.
데니스

부수적 인 질문은 별도의 질문으로하십시오.
Dilip Sarwate

시작한 다음 조각 길이의 확률 분포 를 보았습니다 .
데니스

0

X가 절대 값을 제거하기 위해 양수 값을 가지고 있다고 가정 해 봅시다.

정확한 증명이 없으면 k를 풀어야한다고 생각합니다.

F는 X의 누적 분포 함수와 되(1FX(k))E(X|X>=k)=12E(X)

그런 다음 최고 값 을 취하여 답을 얻습니다 .n(1FX(k))

내 논리는 비대칭 적으로 k보다 높은 모든 값의 합은

n(1FX(k))E(X|X>=k)

그리고 비합리적으로 총합의 절반이

.12nE(X)

수치 시뮬레이션은 결과가 균일 한 경우 ( 균일 함 ) F ( k ) = k 이고 k = √ 인 경우를 나타냅니다.[0,1]F(k)=k. 결과가 항상 유지되는지 또는 더 단순화 될 수 있는지 확실하지 않지만 실제로 분포 함수 F에 달려 있다고 생각합니다.k=(12)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.