예측 및 공차 구간


11

예측 및 공차 구간에 대한 몇 가지 질문이 있습니다.

공차 구간의 정의에 먼저 동의합시다. 신뢰 수준, 예를 들어 90 %, 포착 할 모집단의 비율, 99 %, 표본 크기 (예 : 20)가 주어집니다. 확률 분포는 알려져 있습니다. 편의상. 이제 위의 세 가지 숫자 (90 %, 99 % 및 20)와 기본 분포가 정상이라는 사실을 고려하여 공차 수 계산할 수 있습니다 . 평균이 이고 표준 편차가 인 표본 이 주어지면 공차 구간은 입니다. 이 공차 구간이 모집단의 99 %를 차지하면 표본 성공 이라고합니다.k(x1,x2,,x20)x¯sx¯±ks(x1,x2,,x20)요구 사항은 샘플의 90 %가 성공하는 것 입니다.

의견 : 90 %는 표본이 성공할 수있는 선험적 확률입니다. 99 %는 표본이 성공한 경우 미래 ​​관측치가 공차 구간에있을 것이라는 조건부 확률입니다.

내 질문 : 예측 구간을 공차 구간으로 볼 수 있습니까? 웹을 보면 아무도 예측 간격을주의 깊게 정의하지 않았다는 것은 말할 것도없이 이것에 대해 상충되는 답변을 얻었습니다. 따라서 예측 간격 (또는 참조)에 대한 정확한 정의가 있다면 감사하겠습니다.

내가 이해 한 것은 예를 들어 99 % 예측 간격이 모든 샘플에 대한 모든 미래 값의 99 %를 캡처하지 않는다는 것 입니다. 이것은 모집단의 99 %를 100 % 확률로 포착하는 공차 구간과 같습니다.

90 % 예측 구간에 대해 찾은 정의에서 90 %는 표본이 주어진 사전 확률 예 : (크기는 고정됨) 단일 미래 관측 값 입니다. 는 예측 구간에 있습니다. 따라서 샘플과 미래 값이 모두 공차 간격과 달리 샘플이 주어지고 특정 확률로 성공하는 경우와 샘플이 일치하는 조건 에서 동시에 주어진 것처럼 보입니다. 성공y y(x1,x2,,x20)yy미래 값이 주어지고 특정 확률로 공차 구간에 속합니다. 예측 간격의 위의 정의가 올바른지 확실하지 않지만 (최소한) 반 직관적 인 것처럼 보입니다.

어떤 도움?


4
정규 표본 추출에 대한 단측 공차 구간은이 개념을 이해하는 데 도움이 될 수 있습니다. 상부 바인딩 -tolerance 아무것도 없지만 상위 자신감의 바인딩 -quantile 모델의 가정 된 분포. 따라서 정규 분포의 경우 이는 매개 변수 의 신뢰 상한이며, 여기서 는 표준 가우스 분포의 입니다. 99 % μ + k σ k = z 99 % 99 %99%99%μ+kσk=z99%99%
Stéphane Laurent

즉시 쇼가 허용 한계 여러 종류가 있기 때문에, 스테판 좋은 재 형성이다 : 하나는 요청할 수 있습니다 상단 에 신뢰 제한 A에 대한, 낮은 에 신뢰 제한 또는 (예를 들어) 해당 모수 의 편견 추정치 입니다. 문헌에서이 세 가지 모두를 "허용 한계"라고합니다. μ + z 0.99 σμ+z0.99σμ+z0.99σ
whuber

에 대한 신뢰 하한을 말하기를 원한다고 생각합니다 . μz0.99σ
Stéphane Laurent

2
사실, 아니오, Stéphane (그래서 매개 변수에 대한 수식을 반복하도록주의를 기울였습니다). A에 대한 세 가지 유사한 정의도있다 낮은 허용 한계는. 예를 들어, 인구의 상위 99 번째 백분위 수를 과소 평가 하길 원하지만 과소 평가량을 통제하기 위해서는 과소 평가가 여전히 너무 높을 확률이 5 %라고 주장합니다. 이를 통해 우리는 "이 데이터는 인구의 99 번째 백분위 수가 그와 같은 가치를 초과한다는 것을 95 %의 확신으로 보여줍니다."
whuber

답변:


14

정의가 올바른 것 같습니다.

이 문제에 대한 상담이 책은 통계 간격 (제럴드 한이 & 윌리엄 순한), 1991 I 인용 :

단일 미래 관측치에 대한 예측 구간은 지정된 신뢰도를 사용하여 모집단에서 다음 (또는 일부 미리 지정된) 무작위로 선택된 관측치를 포함하는 구간입니다.

[A] 공차 구간은 지정된 신뢰도 의 모집단에 대해 지정된 비율 p 이상을 포함한다고 주장 할 수있는 구간입니다 .100(1α)%

다음은 표준 수학적 용어로 다시 작성된 것입니다. 데이터 을 공통 누적 분포 함수 하여 독립적 인 랜덤 변수 의 실현으로 간주하십시오 . ( 는 가 알려지지 않았지만 주어진 분포 세트 있다고 가정 함)를 상기시켜줍니다 . 하자 동일한 분포를 갖는 다른 임의의 변수가 될 및 제 독립적으로 변수.X = ( X 1 , , X n ) F θ θ F F θ | θ Θ X 0 F θ nx=(x1,,xn)X=(X1,,Xn)FθθFFθ|θΘX0Fθn

  1. 예측 구간 끝점에 의해 주어진다 (단일 미래 관찰 용), 갖고 정의하는 속성 그[l(x),u(x)]

    infθ{Prθ(X0[l(X),u(X)])}=100(1α)%.

    구체적으로, 는 법 의해 결정된 의 변량 분포를 나타냅니다 . 조건부 확률이 없다는 점에 유의하십시오. 이는 전체 공동 확률입니다. 또한, 시간적 순서 : 에 대한 언급이 없으면 다른 값 보다 시간이 지남에 따라 매우 잘 관찰 될 수 있습니다 . 그것은 중요하지 않습니다.Prθn+1(X0,X1,,Xn)FθX0

    이것의 어떤 측면이 "계산적"인지 잘 모르겠습니다. 데이터 수집 하기 전에 추구 할 활동으로 통계 절차를 선택하려는 경우 계획된 2 단계 프로세스를 자연스럽고 합리적으로 구성하는 것입니다. 두 데이터 모두 ( ) "미래 가치" 은 무작위로 모델링해야합니다.Xi,i=1,,nX0

  2. 공차 구간 끝점에 의해 지정된 은 그 정의하는 속성을 갖는다(L(x),U(x)]

    infθ{Prθ(Fθ(U(X))Fθ(L(X))p)}=100(1α)%.

    에 대한 언급이 없다는 점에 유의하십시오 .X0

경우 폼의 예측 구간 정상 분포의 세트가 존재한다{Fθ}

l(x)=x¯k(α,n)s,u(x)=x¯+k(α,n)s

( 는 표본 평균이고 는 표본 표준 편차입니다). Hahn & Meeker가 표로 하는 함수 값은 데이터에 의존하지 않습니다 . 일반적인 경우에도 다른 예측 구간 절차 가 있습니다. 이것 만이 유일한 것은 아닙니다.x¯skx

마찬가지로, 형식의 공차 구간이 있습니다

L(x)=x¯K(α,n,p)s,U(x)=x¯+K(α,n,p)s.

다른 공차 구간 절차가 있습니다 : 이것 만이 유일한 것은 아닙니다.

이 공식 쌍들 사이의 유사성을 주목하면서 우리는 방정식을 풀 수 있습니다.

k(α,n)=K(α,n,p).

이것은 하나있게 재 해석 (변화시킴으로써 여러 가지 방법으로 허용 간격과 예측 간격 및 )하거나 재 해석 지금 만 예측 구간으로서 허용 간격 ( 일반적 의적으로 결정된다 및 ). 이것은 혼란의 한 원인 일 수 있습니다.αpααp


2
이 간격들 사이의 혼란은 실제입니다. 10 년 전 나는 그 차이에 대해 무지하고 (무질서하게) 하나를 인식 할 수없는 정부 통계 학자와 몇 가지 어려운 대화를했다. 지도 작성, 보고서 검토, 사례 근로자 조언, 소프트웨어 배포 및 동료 검토 간행물에서 그녀의 중요한 역할은 이러한 오해의 연속성을 촉진했습니다. 그러니 조심하세요!
whuber

아주 좋은 답변입니다. 감사합니다. 예측 통계가 공차 구간이라고 말하는 일부 통계 학자들은 마음이있었습니다 . 이 아이디어 뒤에 진짜 사실이 있습니까? 즉, 또는 이와 비슷한 것이 사실입니까? k ( α , n ) = K ( α , n , 0.5 )p=50%k(α,n)=K(α,n,0.5)
Stéphane Laurent

3
아니오, 사실이 아닙니다. @ Stéphane. 왜 그렇지 않은지 알아 보려면 95 %라고 말하는 매우 큰 과 적당한 신뢰 의 경우를 고려하십시오 . 로 , 양면 허용 간격 따라서 만 50 %의 확률로있다 그래서 정의에 매우 가까운 분포의 일부 가운데 50 %이어야한다 그 안에 거짓말을한다가 아닌 95 %를 원했다. 그것은 큰 차이입니다! 직관적으로, 모집단의 95 %에 대한 공차 구간은 95 % 신뢰도를 갖는 예측 구간과 비슷해야하지만 여전히 정확히 일치하지는 않습니다. , P = 50 % X 0np=50%X0
whuber

방금 이것에 대해 생각했고 사실은 다음과 같습니다. 이 클 때 . 가 중심이 아닌 t 분포의 도움으로 주어진 고전적인 공차 계수 인지 쉽게 알 수 있습니다 ( -quantile은 중심이 아닌 매개 변수 ). nK50%z1-α/k(α,n)K(50%,n,1α)nK50%z1α/n
Stéphane Laurent

@whuber. 답변 주셔서 감사합니다. 올바른 것으로 표시하기 전에 이해해야합니다. "소화"할 시간을주세요.
Ioannis Souldatos

1

내가 이해 한 것처럼, 일반적인 공차 한계의 경우 의 값은 중심이 아닌 t 백분위 수에서 나옵니다. 분명히 W Huber의 관점에서 볼 때, 허용 한계와 예측 한계의 개념에 익숙하지 않은 일부 통계학자가 있습니다. 내성에 대한 아이디어는 임상 생물 통계학과 달리 엔지니어링 설계 및 제조에서 주로 발생하는 것으로 보입니다. 아마도 공차 구간에 익숙하지 않고 예측 구간과 혼동되는 이유는 통계 훈련을받는 상황 일 것입니다.K(α,p)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.