경험적 평균이 값을 초과 할 것으로 예상되는 횟수


11

대해 의 iid 랜덤 변수 시퀀스가 ​​주어지면 , 경험적 평균 의 예상 횟수를 제한하려고합니다. 는 샘플을 계속 추출함에 따라 값을 초과합니다 . i = 1 , 2 , . . , n 1Xi[0,1]i=1,2,...,nc0T d e f = n j=1P({ 11ni=1nXic0

T=defj=1nP({1ji=1jXic})

일부 대해 라고 가정 하면 Hoeffding의 부등식 을 사용 하여a > 0c=a+E[X]a>0

Tj=1ne2ja2=1e2a2ne2a21

어느 것이 좋을지 모르지만 실제로는 꽤 느슨한 범위입니다.이 값을 묶는 더 좋은 방법이 있습니까? 다른 이벤트 (각 )가 명확하게 독립적이지 않기 때문에이 의존성을 악용 할 수있는 방법을 모릅니다 . 또한 가 평균보다 크다는 제한을 제거하는 것이 좋습니다 .cjc

편집 : Markov의 불평등 을 다음과 같이 사용하면 가 평균보다 큰 제한을 제거 할 수 있습니다 .c

TcE[X]

Tj=1n1jE[X]c=E[X]Hnc
보다 일반적이지만 위의 경계보다 훨씬 나쁘지만 은 .TcE[X]

대한 귀하의 정의는 이에 대한 설명과 함께 움직이지 않습니다. " "가 제거되면 의 예상 초과 횟수 가 되지만 기록 된대로 시간의 선형 조합입니다 . 확률이 상호 배타적이지 않기 때문에 명백하게 기대되는 것은 아닙니다. 예를 들어, 경우 입니다. J × C C 0 T = N ( N + 1 ) / 2Tj×cc0T=n(n+1)/2
whuber

@ whuber 아, 맞습니다. 좋은 지적 감사합니다.
fairidox

상한값을 변경 한 것을 알 수 있습니다. 이제 음수 인 것처럼 보입니다. ;-).
whuber

지수에서 " "는 제곱되어서는 안됩니까? -도메인으로 단순화합니다 [0,1]j
Alecos Papadopoulos

답변:


1

이것은 다소 손으로 만든 접근 방식이며 이에 대한 의견을 보내 주셔서 감사합니다. 비판하는 사람들이 가장 도움이됩니다. OP가 올바르게 이해하면 OP는 표본 평균 계산합니다 . 여기서 각 표본에는 새 rv의 이전 표본 +1 관측치가 포함됩니다. 는 각 표본 평균의 분포를 나타냅니다 . 그럼 우리는 쓸 수 있습니다 Fjx¯jFj

T=defj=1n(1Fj(c))=nj=1nFj(c)

표본 평균 의 분포가 거의 정상적인 표본 크기 을 고려한 다음 표시하십시오 . 그럼 우리는 쓸 수 있습니다GmG^

T=nj=1mFj(c)j=m+1nG^j(c)<nj=m+1nG^j(c)

해결 우리가 구 여기서 통상 표준 인 cdf, 는 iid 프로세스의 표준 편차이고 는 평균입니다. 바운드에 삽입하고 다시 정렬G^j(c)

G^j(c)=1Φ(jσ(μc))
Φσμ

T<m+j=m+1nΦ(jσ(a))

이 한계는 프로세스의 분산에 따라 달라집니다. 이것이 질문에 제시된 것보다 더 나은 범위입니까? 이것은 표본 평균의 분포가 "거의 정상"이되는 방법이 얼마나 "빠른지"에 달려 있습니다. 수치 예제를 제공하기 위해, 가정 이 . 또한 랜덤 변수가 에서 균일하다고 가정하십시오 . 그런 다음 및 입니다. 평균에서 10 % 편차를 고려하십시오 (예 : 설정) . 그런 다음 : 이미 경우 제안하는 범위 ( 의미 가 있음)가 더 엄격 해집니다. 들면 Hoeffding 바인드m=30[0,1]σ=112μ=12a=0.05n=34n>30n=10078.5내가 제안하는 경계는 입니다. Hoeffding는 수렴을 바인딩 (가) 나는 것을 제안 바인딩 동안 당신이 증가하면 20 % 편차 : 두 경계 사이의 차이는 감소하지만 계속 표시 의 Hoeffding가 수렴 바인딩 반면, 경계 나는 수렴한다고 제안한다 (즉, 일반 cdfs의 합은 전체 경계에 거의 기여하지 않는다). 좀 더 일반적으로, 우리는 대해 Hoeffding 바운드가36.2199.538.5aa=0.149.530.5
n

Hb1e2a21
내 바인딩되는 동안
Abm

작은 값 때문에 (오히려 관심의 경우) 다수가되고, 그 경우 여전히 존재한다 샘플 등이더라도, 밀폐 그것을 능가 할 수는 서서히 표본 평균 수렴 분포 정규 분포.aHbAb


" (즉, 표본 평균의 분포에서 정규 근사값을 구해야하는 것으로 추정되는 표본 크기 임계 값을 넘지 않아야합니다.) "여기서 무슨 말을하고 있습니까?
Glen_b-복귀 모니카

중요한 것은 없습니다. 위의 몇 줄을 쓸 때, 표본 평균의 분포가 보통과 같이 "많이"되도록 엄지 손가락 규칙은 적어도 표본 크기 30이 필요하다는 것입니다. 따라서 표본 크기 100의 경우 20 % 편차 경우, 내 경계는 즉 즉, 일부는 거의 기여하지 않습니다. 30.5m+0.5j=m+1nΦ(jσ(a))
Alecos Papadopoulos

그것이 처한 상황을 진술 할 수 없다면 , 일반적인 의미에서 그 규칙을 경험의 법칙이라고 부르지 마십시오. 30의 수치는 완전히 임의적이며 (보통 너무 약하거나 너무 강합니다) 귀하의 경우에도 30이 나타나는 것은 단순한 우연의 일치라고 생각합니다.
Glen_b-복지 주 모니카

1
@Glen_b "30"은 우연의 일치도 아니 었습니다. 저는 단지 숫자 예제를 제공하기 위해 사용했습니다. 나는이 문제에 반대하지 않고 "엄청난 규칙"(특히 규칙이 모호 할 때)을 좋아하지 않는다. 내 답변을 약간 변경했습니다. 입력 주셔서 감사합니다.
Alecos Papadopoulos

@Glen_b 고정되지 않은 (즉, 긴) 메모리에 감사드립니다!
Alecos Papadopoulos
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.