연속성 보정 (예 : 이항 분포에 대한 정규 근사)이 작동하는 이유는 무엇입니까?


24

정규 근사에 대한 이항 분포에 대한 연속성 보정 이 어떻게 도출 되었는지 더 잘 이해하고 싶습니다 .

1/2을 더해야한다고 결정하기 위해 어떤 방법을 사용 했습니까 (다른 숫자는 아님)? 모든 설명 (또는 이것 이외의 제안 된 독서에 대한 링크 가 인정 될 것입니다).

답변:


29
  1. 실제로 그것은 항상 "작동"하지 않습니다 (항상 의해 이항 cdf의 근사치를 항상 개선한다는 의미에서 ). 이항 가 0.5이면 아마도 가장 극단적 인 꼬리를 제외하고 항상 도움이된다고 생각합니다. 가 0.5에서 너무 멀지 않은 경우 합리적으로 큰 대해 일반적으로 맨 끝을 제외하고는 매우 잘 작동하지만 가 0 또는 1에 가까우 면 전혀 도움이되지 않을 수 있습니다 (아래 6 항 참조).xppnp

  2. 명심해야 할 것은 (거의 항상 pmfs와 pdfs를 포함하는 그림에도 불구하고) 우리가 근사하려고하는 것은 cdf라는 것입니다. 이항의 cdf와 근사 법선 (예 : )으로 무슨 일이 일어나고 있는지 숙고하는 것이 유용 할 수 있습니다 .n=20,p=0.5

    여기에 이미지 설명을 입력하십시오

    한계에서 표준화 된 이항의 cdf는 표준 법선으로 이동합니다 (표준화는 x 축의 스케일에 영향을 미치지 만 y 축에는 영향을 미치지 않습니다). 점점 대형 길을 따라 이항 CDF의 점프보다 균등하게 정상적인 CDF를 걸쳐하는 경향이있다.n

    위의 간단한 예에서 확대하여 살펴 보겠습니다.

    여기에 이미지 설명을 입력하십시오

    근사 법선이 수직 점프의 중간에 가까워 지므로 * 한계에서 법선 cdf는 국소 적으로 대략 선형이며 (각 점프의 상단에서 이항성 cdf의 진행과 같이); 결과적으로 cdf는 근처의 수평 단계를 교차하는 경향이 있습니다. 정수 에서 이항 cdf, 의 값을 근사하려면 정규 cdf가 근처의 높이에 도달합니다 . F(X)(X)(X)+1x+12F(x)xx+12

    * Berry-Esseen을 평균 보정 Bernoulli 변수에 적용하면 Berry-Esseen 경계는 가 근처에 있고 가 근처에 있을 때 매우 작은 흔들림 공간을 허용 합니다. 일반 cdf는 그렇지 않으면 cdfs의 절대 차이가 한쪽 또는 다른 쪽의 최고의 Berry-Essen 경계를 초과하기 때문에 점프합니다. 이는 정규 cdf가 이항 cdf의 스텝 함수의 수평 부분을 가로 지르는 의 거리와 관련이 있습니다.1 페이지p xμx+112xμx+12

  3. 1.에서 이항 cdf에 대한 정규 근사를 사용하여 를 해결하는 동기를 확장 하자는 동기를 확장 해 봅시다 . 예를 들어 (위의 두 번째 다이어그램 참조). 따라서 평균이 같고 sd 인 법선은 입니다. 약 8.5에서 9.5 사이의 일반 cdf 변경으로 9에서 cdf의 점프를 추정합니다.n = 20 , p = 0.5 , k = 9 N ( 10 , ( P(X=k)n=20,p=0.5,k=9N(10,(5)2)

여기에 이미지 설명을 입력하십시오

  1. 덜 공식적이지만 "보통"교과서 동기 부여 (특히 초보자를 위해 더 직관적 일 수 있음) 하에서 같은 일을하면서, 우리는 이산 변수를 연속 변수로 근사하려고합니다. 우리는 높이 각 확률 스파이크 바꾸어 이항 연속 버전 수 중심으로 한 폭의 직사각형으로 그것을 가로주는 (청색 사각형 아래 참조; 모든 X- 하나 상상 그런 다음 원래 이항과 같은 평균과 sd를 가진 정규 밀도로 근사합니다.(X) P ( X )p(x)xp(x)

    ! [여기에 이미지 설명 입력

    상자 아래의 면적은 와 사이의 법선에 의해 근사됩니다 . 수평 계단의 위와 아래에있는 두 개의 거의 삼각형 부분은 서로 가깝습니다. 구간 내 이항 확률의 합은 이러한 근사값의 모음으로 줄어 듭니다. 당신이 올라가거나 아래로 0.5 이항 값은 당신이 당신의 계산에 원하는에서 특정 계산 ... 작업에 의해 양쪽을 갈 필요가 있는지 여부는 즉시 취소되어 있지 않은 경우 (이런 그림을 그리는 것은 종종 매우 유용합니다 에 대한 각각.) x+1x12 1x+1212

    이 접근 방식은 파생을 사용하여 대수적으로 (De Moivre의 선을 따라 ( 여기 또는 여기 참조)) 정규 근사값을 도출 할 수 있습니다 (De Moivre의 접근 방식보다 약간 더 직접적으로 수행 할 수 있음).

    그것은 본질적으로 항 에 대한 스털링의 근사를 사용하고 를 사용하여 몇 가지 근사를 통해 진행됩니다.(nx)log(1+x)xx2/2

    P(X=x)12πnp(1p)exp((xnp)22np(1p))

    평균은 통상의 밀도 말할 인 및 분산 에서 약의 이항 PMF의 높이 . 이곳은 본질적으로 De Moivre가있는 곳입니다.μ=npσ2=np(1p)xx

    이제 우리는 이항 높이 측면에서 정상 영역에 대한 중간 점 규칙 근사가 있다고 생각합니다. 즉, 의 경우 중간 점 규칙은 우리는 De Moivre에서 . 이것을 뒤집 으면 입니다.YN(np,np(1p))F(y+12)F(y12)=y12y+12fY(u)dufY(y)fY(x)P(X=x)P(X=x)F(x+12)F(x12)

    [연속 보정을 사용하여 밀도에 의해 연속 pmfs의 다른 근사를 동기 화하기 위해 유사한 "중간 점 규칙"유형 근사를 사용할 수 있지만 근사를 호출하는 것이 적절한 곳에 항상주의를 기울여야합니다]

  2. 역사적 메모 : 연속성 보정은 1838 년 De Moivre의 근사치의 개선으로 Augustus de Morgan에서 시작된 것으로 보입니다. 예를 들어 Hald (2007) [1]을 참조하십시오. Hald의 설명에서, 그의 추론은 위의 항목 4의 라인을 따른 것입니다 (즉, 본질적으로 확률 스파이크를 x 값을 중심으로하는 너비 1의 "블록"으로 대체하여 pmf를 근사하려는 관점에서).

  3. 연속성 수정이 도움이되지 않는 상황의 예 :

    여기에 이미지 설명을 입력하십시오

    왼쪽 그림에서 (이전과 같이 는 이항이고, 는 정규 근사입니다), 그리고 . 우측의 그래프 (꼬리로 동일하지만 상기 이항)에서, 등 - 이는 인 연속 보정을 무시하는 것이이 영역에서 사용하는 것보다 낫습니다.XYFX(x)FY(x+12)p(x)FY(x+12)FY(x12)FX(x)FY(x)p(x)FY(x)FY(x1)

    [1] : Hald, Anders (2007),
    "Beroulli에서 Fisher까지의 매개 변수 통계적 추론의 역사, 1713-1935"
    ,
    Springer-Verlag New York 의 수학 및 물리학 역사의 출처 및 연구


1

나는 우리가 지속적인 분포를 이산과 비교한다는 사실에서 그 요인이 발생한다고 믿는다. 따라서 연속 분포에서 각 개별 값이 의미하는 바를 번역해야합니다. 우리는 다른 값을 선택할 수 있지만 주어진 정수에 대해 불균형합니다. (즉, 6보다 7이 7 일 확률이 5보다 높습니다.)

여기 유용한 링크를 발견 : 링크를

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.