정규 확률 변수에 대한 대략적인 순서 통계


38

특정 랜덤 분포의 순서 통계에 대해 잘 알려진 공식이 있습니까? 특히 정규 랜덤 변수의 첫 번째 및 마지막 순서 통계이지만 더 일반적인 대답도 인정됩니다.

편집 : 명확히하기 위해 정확한 적분 표현식이 아니라 다소 명시 적으로 평가 될 수있는 수식을 찾고 있습니다.

예를 들어, 정규 rv의 1 차 통계량 (즉, 최소값)에 대한 다음 두 가지 근사값을 보았습니다.

e1:nμn12n1σ

e1:nμ+Φ1(1n+1)σ

대한 첫 번째 는 대략 하며 이는 매우 느슨한 경계처럼 보입니다.n=200e1:200μ10σ

두 번째는 하는 반면, 빠른 Monte Carlo는 를 제공하므로 근사값은 아니지만 좋지는 않습니다. 더 중요한 것은 그것이 어디에서 왔는지에 대한 직관이 없습니다.e1:200μ2.58σe1:200μ2.75σ

어떤 도움?


4
R을 사용하는 경우 ppoints 함수를 참조하십시오 .
추기경

1
@probabilityislogic은 사용자가 나열한 근사치에 대해 좋은 직관을 제공했습니다. 대안적인 관점에서 더 많은 것을 주었거나이 문제에 대한 호기심을 만족 시켰습니까?
추기경

답변:


31

고전적인 참고 문헌은 Royston (1982) [1]이며, 여기에는 명시 적 공식 이상의 알고리즘이 있습니다. 또한 Blom (1958)의 잘 알려진 공식을 인용합니다. with . 이 공식은 에 -2.73의 배수를 제공합니다 .α=0.375n=200,r=1E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1] : 알고리즘 AS 177 : 예상 정상 주문 통계 (정확하고 대략적인) JP Royston. 왕립 통계 학회지. 시리즈 C (응용 통계) Vol. 31, No. 2 (1982), 161-165 쪽


21

연속 랜덤의 i 번째 순서 통계 분포 PDF로 변수는 "베타 -F"화합물 분포에 의해 주어진다. 이 분포를 생각하는 직관적 인 방법은 의 표본에서 i 번째 차수 통계량을 고려하는 것입니다 . 이제 랜덤 변수 의 i 번째 차수 통계량 값이 같기 위해서는 3 가지 조건이 필요합니다.NXx
  1. i1 미만의 값 은 각 관측치에 대한 확률 를 갖습니다. 여기서 는 랜덤 변수 X의 CDF입니다.xFX(x)FX(x)=Pr(X<x)
  2. Ni 보다 높은 값 은 확률x1FX(x)
  3. 포함하는 무한 간격 내의 값이 1 이면 확률은 여기서 는 랜덤 변수 의 PDFxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

이 방법은 .(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

내 원래 게시물에서 편집 , 나는이 시점에서 더 나아가려고 매우 열악한 시도를했으며 아래 주석은 이것을 반영합니다. 나는 이것을 아래에서 수정하려고 노력했다.

이 pdf의 평균값을 얻으면 다음과 같은 결과를 얻습니다.

E(Xi)=xifi(xi)dxi

그리고이 적분에서 변수 (@ henry의 힌트를 얻음)를 다음과 같이 변경하면 적분이됩니다.pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

따라서 이것은 역 CDF의 예상 값이며 델타 방법을 사용하여 대략적으로 계산할 수 있습니다.

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

더 나은 근사를 만들기 위해, 우리는 2 차 (미분을 나타내는 프라임)로 확장하고 역의 2 차 미분은 다음과 같습니다.

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

보자 . 그리고 우리는 :νi=FX1[iN+1]

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

이제 일반적인 경우를 전문으로하여

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

참고 그리고 기대는 대략 다음과 같습니다.fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

그리고 마지막으로:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

@whuber가 언급했듯이 이것은 꼬리에서 정확하지 않습니다. 실제로 매개 변수가 다른 베타의 왜곡으로 인해 더 나빠질 수 있다고 생각합니다.


1
" 임의 변수 의 최대 우도 추정기 "? 그것이 무엇인지 확실하지 않지만, 당신은 (거의) 모드를 계산했다고 생각 합니다 .
추기경

1
갑자기 와 가 경고 나 정의없이 나타날 때 신비로운 일이 벌어 지고 있습니다. μσ
whuber

2
"파일 정리"를 의미하지는 않지만 괄호 안의 수량을 음수로 근사 할 수있는 방법을 확인하기도 어렵습니다.
추기경

1
수학의 수준에서, 당신이 말할 수있는 동안 @probabilityislogic, 이 경우 우리는 이변 량의 기능을 고려하고 단순히 대신 서로 하나 개의 변수를 통해 극대화, 나는 수학 통계 이유가 생각하고 교육학은 없습니다 당신이 무엇을 호출 '최대 가능성 추정'을 수행했습니다. 그것들은이 공간에서 열거하기에는 너무 많지만, 내가 생각할만한 간단한 것은 통계에 특정한, 특정한 어휘를 사용한다는 것입니다. 하나의 문제로 변덕스럽게 바꾸면 오해로 이어질 수 있습니다 ... / ...
Cardinal

2
수정 된 답변에 대한 @probabilityislogic (+1). 한 가지 제안, 아마도 가 "의미"를 의미 위해 보다 낫습니다 . 수렴 주장을하지 않았다는 것을 깨닫기 위해 몇 초 동안 몇 줄을 쳐다 보았다.
추기경

13

Aniko의 대답은 의 선택을 포함하는 Blom의 잘 알려진 공식에 의존합니다 . 그것은이 화학식 자체 인해 Elfving G. (1947)에 대해 정확한 답을 단순한 근사임을 밝혀 정상 모집단에서 샘플 범위 asymptotical 분포 , Biometrika 권. 34, pp. 111-119. 엘프 빙의 공식은 샘플의 최소 및 최대를 목표로하며, 알파의 올바른 선택은 입니다. Bpi의 공식은 를 근사 할 때 발생 합니다.α=3/8π/8π3

Blom의 근사치보다 Elfving 공식을 사용하면 -2.744165의 배수가됩니다. 이 수치는 Blom의 근사치 (-2.73)보다 Erik P.의 정답 (-2.746)과 Monte Carlo 근사치 (-2.75)에 더 가깝지만 정확한 공식보다 구현하기가 더 쉽습니다.


Elfving (1947)을 통해 에 도달 하는 방법에 대해 좀 더 자세히 설명해 주 시겠습니까? 이 기사에서는 명확하지 않습니다. α=π/8
Anthony

1
앤서니-나는 교과서 수학 통계, Samuel Wilks, 술집에 의존하고 있습니다. 와일리 (1962). 운동 8.21 페이지 249 상태 : "x_ (1), x_ (n)은 연속 cdf F (x)에서 랜덤 크기 2n * sqrt {[F (x_ ( 1))] [1-F (x_ (n))]}은 평균 pi / 2와 분산 4- (pi ^ 2) / 4를 갖는 n-> 무한대로 한계 분포를 갖습니다. " (미안하지만 마크 업 코드를 모릅니다!) 대칭 분포의 경우 F (x_ (1)) = 1-F (x_ (n)). 따라서 F (x_ (n))은 약 pi / (4n)이거나 x_ (n)은 약 F ^ (-1) (pi / (4n))입니다. Blom 공식은 근사값 3 / (4n)을 사용합니다.
Hal M. Switkay

이것은 인디애나 주 의회 에 의한 악명 높은 " "법안을 상기시킵니다. ( 위키 백과 기사 에서는 인기있는 버전의 스토리가 정확하지 않다고 제안 하지만 )π=3
steveo'america

7

수행하려는 작업에 따라이 답변은 도움이되거나 도움이되지 않을 수 있습니다 . Maple의 통계 패키지 에서 다음과 같은 정확한 공식을 얻었습니다 .

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

자체로이 (가 최소이기 때문에 그것은 아마 손으로 비교적 쉽게 도출 할 수없는 매우 유용 확률 변수)하지만, 주어진 값에 대한 신속하고 매우 정확한 근사를 허용 않습니다 -보다 훨씬 더 정확 몬테카를로 :nn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

-2.746042447 및 -2.746042447451154492412344를 각각 제공합니다.

(전체 공개-이 패키지를 유지합니다.)


1
@ProbabilityIsLogic은 회신의 전반부에 모든 주문 통계에 대해이 통합을 도출했습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.