정규 분포에서 표본 표준 편차의 표준 편차를 어떻게 찾을 수 있습니까?


11

내가 분명한 것을 놓친 경우 용서하십시오.

저는 정규 분포에 근사한 평균값을 중심으로 본질적으로 (히스토그램) 분포를 가진 물리학 자입니다. 나에게 중요한 값은이 가우스 랜덤 변수의 표준 편차입니다. 표본 표준 편차에서 오류를 찾으려면 어떻게해야합니까? 원래 히스토그램의 각 빈에 대한 오류와 관련이 있다고 생각합니다.


힌트는 stats.stackexchange.com/questions/26924에 제공됩니다 . 일반적으로 분산 의 샘플링 오류 는 분포 의 처음 모멘트 로 계산할 수 있으므로 SD의 샘플링 오류는 적어도 그 모멘트에서 추정 할 수 있습니다.
whuber

답변:


12

샘플 표준 편차의 표준 편차 계산을 요청하는 것처럼 들립니다. 즉, . 여기서SD(s)=var(s)

s=1n1i=1n(XiX¯),

X1,...,XnN(μ,σ2) 및 는 표본 평균입니다.X¯

먼저 분산의 기본 속성에서

var(s)=E(s2)E(s)2

표본 분산이 편향되지 않으므로 입니다. 에서 왜 표본 표준 편차의 바이어스 추정이다 ? , 우리는 추정 할 수있는 를 계산합니다σ E ( S )E(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

따라서

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2

좋은 지적. s ^ 2의 분산에 대한 추정치를 얻었습니다. 제곱근을 취하면 s ^ 2의 표준 편차를 추정 할 수 있습니다. 그러나 당신은 s의 표준 편차를 얻는 실제 질문에 대답했습니다. 나는 실제적인 이유로 당신도 공식을 사용하여 추정값을 얻기 위해 σ를 s로 바꾸겠다고 가정합니다.
Michael R. Chernick

예, 맞습니다. 를 바꿀 수 근사값은 아주 작은 샘플 크기에서도 잘 수행 됩니다. 몇 가지 테스트를 수행했습니다 . s n = 20σsn=20
매크로

11

수량 와 카이 제곱 분포있다 자유도를 샘플 독립적이 수량이 신뢰를 얻기 위해 이용 될 수있는 동일한 정규 분포와 함께 배포 할 때 법선의 편차와 표준 편차의 간격. 빈의 중심 값뿐만 아니라 원시 값이있는 경우 계산할 수 있습니다 . n - 1 s 2X=(n1)s2/σ2n1s2

가 자유도를 갖는 카이 제곱 분포를 갖는 그 분산은 것으로 알려져있다 . 이것 사실 알면서 우리가 얻을 분산을 가지고 같 하지만 알 수없는 당신하여 대략적인 수 당신은의 분산 무엇을 거친 생각이 입니다.n 1 2 ( n 1 ) V a r ( c X ) = c 2 V a r ( X ) s 2 2 ( n 1 ) σ 4Xn12(n1)Var(cX)=c2Var(X)s2σ 4 s 4 s 2

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2

나는 이것을 구걸에 게시하려고했지만 여기서 보는 문제는 를 알 수 없다는 것 입니다. 그 사실을 감안할 때 샘플 크기를 모르는 경우 에 근접하는 것이 유효한지 알 수 없습니다. 네 번째 순간이 특이 치에 심각한 문제를 일으킬 수 있음을 알 수 있습니다. s 4σ 4σ2s4σ4
Néstor

σ 4 σ 4s4 는 (제공된 가 존재 함) 의 일관된 추정량입니다 . 나는 이것이 사람들이 "대략"또는 "거친 아이디어"라고 말할 때 일반적으로 의미하는 것이라고 생각합니다. σ4σ4
매크로

2
수면 부족 일 수도 있지만 순환 추론과 같지 않습니까?
Néstor

우리는 처음부터 데이터가 정규 분포에서 나온 것으로 가정하여 이상 치가 없다고 가정했습니다. Macro가 제안한 방식이 거칠 었습니다. 표본 크기가 s ^ 4가 σ ^ 4에 얼마나 가까운 지에 영향을 미친다는 데 동의합니다. 그러나 특이 치에 대한 걱정은 Nesp의 오프베이스입니다. 당신이 나를 위해 공의를 표했다면 그것은 매우 불공평하다고 생각합니다. 내가 제시 한 것은 데이터가 거의 분포하지 않을 때 s ^ 2에 대한 표준 편차를 추정하는 표준 방법이었습니다.
마이클 R. 체 르닉

@Nesp, Michael은 정규 분포 된 샘플과 샘플 표준 편차의 편차를 일관되게 추정했습니다. 왜 이것이 순환 추론이라고 생각하는지 모르겠습니다.
Macro

7

일반적인 경우 표준 편차의 오차를 정량화하는 방법에는 여러 가지가 있습니다. 신뢰 구간을 근사화하는 데 사용할 수있는 의 프로파일 가능성을 제시하겠습니다 .σ

하자 일반 상태에서의 샘플 수 . 해당 우도 함수는( μ , σ )x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

그런 다음 최대 가능성 추정값은 로 주어집니다 . 여기서 . 의 오류를 수량화하는 데 관심 이있는 경우 다음과 같이이 매개 변수의 정규화 된 프로파일 가능성을 계산할 수 있습니다.S = (μ^,σ^)=(x¯,s)σs=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

참고 수준의 간격. 의 대략적인 신뢰 한 다음으로는 연결합니다. 이러한 간격을 계산 사용할 수있는 코드는 당신이 그것을 수정할 수 있습니다. 따라서 귀하의 상황에서 (또는 데이터를 게시하는 경우 이러한 변경 사항을 포함시킬 수 있습니다).0.147 0.95 RRp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

이러한 종류의 간격의 이점은 변환시 변하지 않는다는 것입니다. 이 경우 , 의 간격을 계산하면 의 해당 간격 은 간단히 입니다.I = ( L , U ) σ 2 I ' = ( L 2 , U 2 )σI=(L,U)σ2I=(L2,U2)


나는 그가 단지 s의 표준 편차를 원한다고 생각합니다.
Michael R. Chernick 0:07에
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.