범위와 표준 편차의 관계

기사에서 표본 크기 의 표준 편차에 대한 공식을 찾았습니다. $N$

$\sigma=\frac{\overline{R}}{2.534}$

여기서 은 기본 샘플 의 하위 샘플 (크기 ) 의 평균 범위입니다 . 숫자 는 어떻게 계산됩니까? 이것은 정확한 숫자입니까? $\overline{R}$ $6$ $2.534$

standard-deviation descriptive-statistics range

— 앤디
소스

참고하시기 바랍니다. 더 중요한 것은 : 1. 여기에서 어떤 종류의 분포와 관계없이 "올바른 숫자"가있을 수 없습니다. 2.이 규칙은 일반적으로 범위에서 SD를 추정하는 지름길 방법에 관심이 있습니다. 이제 우리는 컴퓨터를 가지고 있습니다 .... 그렇게 하시겠습니까? 왜 데이터를 사용하지 않습니까?

— Nick Cox

@ 닉 죄송합니다 : 당신이 맞았습니다. 주변 값 대한 일 표준 편차는 샘플 크기는 약 때 행 ; 은 약 등의 샘플 크기에서 작동합니다 . 이전 주석을 삭제하여 본인 이외의 다른 사람을 혼동하지 않습니다!

4

$4$

15

$15$

50

$50$

3

$3$

10

$10$

— whuber

@ NickCox 그것은 늙은 러시아 소스이며 이전에는 공식을 보지 못했습니다.

— Andy

참고 문헌을 제공하는 것이 나쁜 생각은 아닙니다. 독자가 흥미 롭거나 접근 가능한지 스스로 결정하도록하십시오. (예를 들어 러시아어를 읽을 수있는 사람들이 많이 있습니다.)

— Nick Cox

답변:

샘플기로에서 의 분포로부터 독립 값 의 PDF와 , 극단의 조인트 분포 PDF 과 에 비례 $x$ $n$ $F$ $f$ $\min(x)=x_{[1]}$ $\max(x)=x_{[n]}$

f (x_{[1]}) {(F (x_{[n]}) - F (x_{[1]}))}^{n - 2} f (x_{[n]}) d x_{[1]} d x_{[n]} = H_{F} (x_{[1]}, x_{[n]}) d x_{[1]} d x_{[n]} .

$f(x_{[1]})\left(F(x_{[n]})-F(x_{[1]})\right)^{n-2}f(x_{[n]})dx_{[1]}dx_{[n]} = H_F(x_{[1]}, x_{[n]})dx_{[1]}dx_{[n]}.$

(비율 상수는 다항식 계수 의 역수입니다 . 직관적으로이 조인트 PDF는 범위에서 가장 작은 값을 찾을 가능성을 나타냅니다. , 범위에서 가장 큰 값 및 범위 내 에서 중간 값 입니다. 가 연속적 일 때 , 우리는 그 중간 범위를 대체 하여 "무한"확률 만 무시할 수 있습니다. 있는 $\binom{n}{1,n-2,1} = n(n-1)$ $[x_{[1]},x_{[1]}+dx_{[1]})$ $[x_{[n]},x_{[n]}+dx_{[n]})$ $n-2$ $[x_{[1]}+dx_{[1]}, x_{[n]})$ $F$ $(x_{[1]}, x_{[n]}]$ $f(x_{[1]})dx_{[1]},$ $f(x_{[n]})dx_{[n]},$ 및 , 이제 공식의 출처를 알 수 있습니다.) $F(x_{[n]})-F(x_{[1]}),$

범위를 예상하면 표준 편차 및 정규 분포에 대해 제공 됩니다. 의 배수로 예상되는 범위 는 샘플 크기 에 따라 다릅니다 . $x_{[n]} - x_{[1]}$ $2.53441\ \sigma$ $\sigma$ $n=6$ $\sigma$ $n$

이러한 값은 를 에 수치 적으로 통합하여 계산되었습니다. 와 표준 정규 CDF으로 설정하고 표준 편차로 나눈 (그냥 ). $\binom{n}{1,n-2,1}\left(y-x\right)H_F(x,y)dxdy$ $\{(x,y)\in\mathbb{R}^2|x\le y\}$ $F$ $F$ $1$

예상 범위와 표준 편차 사이의 유사한 곱셈 관계는 분포의 형태 만으로도 특성이 있기 때문에 모든 위치 규모 분포에 대해 유지됩니다 . 예를 들어, 균일 분포에 대한 비교 가능한 도표는 다음과 같습니다.

지수 분포 :

앞의 두 도표의 값은 숫자가 아닌 정확한 적분에 의해 얻어졌으며, 이는 각각의 경우에 비교적 간단한 대수 형태의 와 로 인해 가능합니다 . 균일 분포의 경우 와 같고 지수 분포의 경우 여기서 는 오일러 상수이고 는 오일러 감마 함수의 로그 파생 인 "폴리 감마"함수입니다. $f$ $F$ $\frac{n-1}{(n+1)}\sqrt{12}$ $\gamma + \psi(n) = \gamma + \frac{\Gamma'(n)}{\Gamma(n)}$ $\gamma$ $\psi$

그것들은 (이 분포가 넓은 범위의 모양을 나타 내기 때문에) 다르지만, 3은 대략 동의 하며, 곱셈기 는 모양에 크게 의존하지 않으므로 표준 편차에 대한 옴니버스, 강력한 평가로 작용할 수 있음을 보여줍니다 작은 서브 샘플의 범위가 알려진 경우. (사실, 자유도가 3 인 매우 두꺼운 꼬리가있는 스튜던트 분포는 여전히 에서 멀지 않은 대해 의 배수 집니다.) $n=6$ $2.5$ $t$ $2.3$ $n=6$ $2.5$

— 우버
소스

멋진 박람회! 이것이 1920 년대에 다시 조사 된 것으로 보입니다. Tippet 1925를 참조하십시오 . Tippet의 테이블 (표 X)에서 크기 6의 표본이 주어진 범위에 대한 예상 값은 입니다. 그는 정규 분포에 대한 범위의 완전한 분포의 도출을 보여줍니다. 이것은 David 등 이 사용했습니다. 정규성 검정에 대한 범위 분포의 확률 포인트를 계산하기 위해 (1954) (D' Agostino & Stephens 9.3.3.4.2 참조).

2.53441 σ

$2.53441\sigma$

— Avraham

@Avraham 환영 해 주셔서 감사합니다. 그래픽을 추가했을 때 가장 큰 충격은이 전체 접근 방식의 가장 영리한 부분은 크기 6의 서브 샘플을 사용한다는 것입니다.

— whuber

감사! Tippet의 테이블은 실제로 2에서 1000 사이의 모든 숫자에 적절한 승수를 제공합니다. 물론 이것은 ENIAC보다 20 년 전인 1925 년으로 거슬러 올라갑니다.

— Avraham

@ whuber 숫자 (2.534)가 어떻게 계산되었는지 보여줄 수 있습니까?

— Andy

계산에 대한 설명을 포함하도록 답변을 편집했습니다.

— whuber

이 근사는 실제 표본 표준 편차에 매우 가깝습니다. 나는 그것을 설명하기 위해 빠른 R 스크립트를 작성했습니다.

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

결과는 다음과 같습니다.

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

이제 왜 이것이 작동하는지 잘 모르겠지만 적어도 근사값이 (액면가) 비슷해 보입니다.

편집 : 왜 이것이 작동하는지에 대한 @Whuber의 예외적 인 의견을 참조하십시오

대략 균일 한 분포에서 크기가 표본을 그리고 있습니다 . 실제로 균일 한 분포의 경우 비율은 입니다. 당신이 당신의 시뮬레이션에 그 요소를 사용한다면 실제로, 당신은 얻을 것이다 동등한 아주 가까이, .

6

$6$

10 \sqrt{3} / 7 \approx 2.474

$10\sqrt{3}/7\approx 2.474$ mean(R)/2.474

2887.6

$2887.6$ sd(x)

— whuber

매우 사실입니다! > mean(R)/2.474 [1] 2887.611