“.632 규칙”에서 확률이 같지 않으면 어떻게됩니까?


11

이 질문은 ".632 규칙" 에 관한 질문에서 비롯된 것 입니다. 문제를 단순화하는 범위에서 user603의 답변 / 표기법을 특별히 언급하고 있습니다.

이 답변은 크기가 표본으로 시작하고, 수집 된 별개의 항목 에서 을 교체합니다 (콜). 샘플 가 N 의 특정 요소 과 다를 은N I t의 H S I m ( 1 - 1 / N ) .n,nithsim(11/n).

이 답변에서 N의 모든 요소는 무작위로 그려 질 확률이 동일합니다.

내 질문은 이것입니다 : 대신 위의 질문에서 그릴 항목이 정상적으로 분포되어 있다고 가정하십시오. 즉, 표준 법선 곡선을 에서 로 (100) 동일한 길이의 하위 간격으로 세분화합니다 . N의 100 개 항목 각각은 각각의 간격에서 곡선이 차지하는 면적과 동일한 드로우 가능성이 있습니다.Z = 4Z=4Z=4

내 생각은 다음과 같습니다.

추론은 내가 생각하는 링크 된 답변과 유사합니다. m 이 N 인 원소를 갖는 sim 일 확률 은 P ( s im ) = ( 1 - F i ) 이며, 여기서 F is i 를 그릴 확률이다 .mP(sim)=(1Fi)Fisi.

특정 요소 m이 크기 n의 표본 S에있을 확률은 다음과 같습니다.

P(mS)=1P(mS)=11nP(sim)
=11n(1Fi).

계산은 그 서브 구간의 길이는 첫 번째 경우와 동일한 번호에 응답 수렴 작은수록 (표시 확률 보인다 si 모두 같음)를.

이 구성은 드물지만 N의 요소를 던지는 것처럼 보이기 때문에 반 직관적입니다.

또한 이것이 정확하다면, 우리는

limn1n(1Fi)=lim(11/n)n=1/e,

나는 아직 진실인지 거짓인지 모른다.

편집 : 그것이 사실이라면 아마 일부를 일반화 할 것입니다.

통찰력을 가져 주셔서 감사합니다.


방금 수학 일반화에 관한 마지막 방정식 (질문 791114)에 대해 물었습니다. 왜냐하면 그것이 어떻게 일반화되는지에 관심이 있기 때문입니다.
다니엘

... 짧은 대답은 마지막 평등이 올바르게 작동하는 PDF에 대해 정확하다는 것입니다. 따라서 질문에 대한 답은 .632 규칙이 다양한 기본 분포에 적용된다는 것입니다.
다니엘

다른 사이트에서 다른 사람의 답변을 들어 여기에 게시 할 수 있습니까? 그래서 내가 간단한 의견을 게시했습니다. 어쩌면 내가 할 수있는 경우이 방법을 받아 들일 수 있습니다.
다니엘

물론 당신은 어느 시점에서 소스를 언급 할 수 있습니다 :)
Firebug

@Firebug : 이것이 수행되는 인스턴스를 가리켜 서 무슨 의미인지 알 수 있습니까? 감사.
다니엘

답변:


2

질문은 제한 행동에 대해 묻습니다.

(1)=1i=1n(1Fi)

같이 증가하고 균일 (a) 모두가 화합 합이 음수 및 (b)임을 이러한 방식으로 수축. (이것은 의 구성 과 확률의 공리 에서 따릅니다 .)F i F inFi Fi

정의상 이 제품은 로그의 지수입니다.

i=1n(1Fi)=exp(i=1nlog(1Fi)).

적용된 Taylor 's Theorem (나머지의 Lagrange 형식)은 다음과 같이 설정합니다.log

log(1Fi)=Fi12ϕi2Fi12Fi2

간격의 일부 에 대해 . 즉, 이러한 대수는 동일 몇 가지 용어까지 최대 배 . 그러나 경우에 하는 모든 것을 보장하기 위해 충분히 큰 것이다 보다 작은 어떤 주어진 (의 균일 한 수축을 보장하는 조건 ) 다음 (b)는 암시 따라서 [ 0 , F I ] - F I 1 / 2 F 2 I N F I ε > 0 F N ε는 > Σ F는 = 1ϕi[0,Fi]Fi 1/2Fi2nFiϵ>0Finϵ>Fi=1

i=1nFi2i=1nϵ2<i=1n(1n)2=1n.

따라서

1=i=1nFii=1nlog(1Fi)i=1nFi121n=112n

수렴하는 두 시퀀스 사이의 로그를 압축합니다 . 는 연속적 이기 때문에 이 한계의 지수로 수렴됩니다 . 따라서exp n i = 1 ( 1 F i ) exp ( 1 )1expi=1n(1Fi)특급(1)

(1나는=1(1에프나는))=1특급(1)0.632,

QED .


이 분석을 자세히 살펴보면이 근사값의 오차 (항상 하한값 임)가 예를 들어, 표준 정규 분포를 와 사이의 슬라이스로 모드 근처에서 최대 생성되며 , 여기서 사각형의 면적과 거의 같습니다. . 전술 한 경계는 화학식 의 값 이 그의 제한 값의 내에있을 것이라는 것을 확립한다 . 실제 오차는 10 배 정도 작습니다.N=400-44 F i가 0EXP(-1 / 2) / 500.012(1)0.0110.001041 F I (1)

(특급((/2)최대(에프나는2))1)특급(1).
=40044에프나는0특급(1/2)/500.012(1)0.0110.001041 . 계산은 다음과 같습니다 R( 중 어느 것도 비해 작기 때문에 신뢰할 수 있습니다 ).에프나는1
f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

사실 1 - prod(1-f)이다 반면 이다 .1 exp ( 1 ) 0.6321206 0.63316151특급(1)0.6321206


2
오류 분석은이 답변에서 매우 유용한 측면입니다.
다니엘
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.