불확실성을 가진 여러 측정의 표준 편차


13

샘플링 속도가 1Hz (7200 회 측정) 인 2 시간의 GPS 데이터가 2 개 있습니다. 데이터는 . 여기서 는 측정 불확실성입니다.N σ(X,Xσ,Y,Yσ,Z,Zσ)Nσ

모든 측정의 평균 (예 :이 두 시간의 평균 Z 값)을 취하면 표준 편차는 무엇입니까? 물론 Z 값에서 표준 편차를 계산할 수는 있지만 알려진 측정 불확실성이 있다는 사실을 무시합니다 ...

편집 : 데이터는 모두 동일한 스테이션에서 가져 오며 모든 좌표는 1 초마다 다시 측정됩니다. 위성 별자리 등으로 인해 모든 측정의 불확실성이 다릅니다. 내 분석의 목적은 외부 사건 (즉, 지진)으로 인한 변위를 찾는 것입니다. 지진 전에 7200 회 측정 (2h)에 대한 평균을, 지진 후 2 시간에 대한 다른 평균에 대한 평균을 구하고 그 결과 차이 (예 : 높이)를 계산하려고합니다. 이 차이의 표준 편차를 지정하려면 두 평균의 표준 편차를 알아야합니다.


3
좋은 질문. 더 중요한 것은, 데이터는 시간이 지남에 따라 양의 상관 관계가 있다는 것입니다. 이는 측정 불확실성의 변화보다 응답에 더 큰 영향을 미칩니다.
whuber

whuber의 의견과 Deathkill14의 답변을 집어 들었을 때, 귀하는 제대로 답변하기에 충분한 정보를 제공하지 않았습니다. 측정 오류가 어떻게 작동하는지 아는 것이 중요합니다 . 예를 들어, 를 측정하는 오류가 3 초에 양수이면 4 초에 양수일 가능성이 높습니다. 즉, 직렬 상관 관계가 있습니까? 둘째, 의 오류가 3 초에 양수인 경우 및 / 또는 의 오류가 3 초에 양수일 가능성이 더 많거나 적 습니까? 2 초에? 4 초에? X X Y ZX,Y,ZXXYZ
Bill

약간 다른 질문으로 관련이 있습니다 : 측정 오차는 얼마나 체계적입니까? 가정 나는 "그래, 말했다 내 앞 잔디밭에 약간 높은 측정 하였다. 되어 거의 항상 내 앞 잔디밭에 약간 높은 측정." 그게 미친 말일까요? 측정 오차는 특정 장소가 너무 높을 수있는 반면 다른 특정 장소가 너무 낮을 수있는 방식으로 작동합니까? "또는 모든 오류가 일시적입니까?XXX
Bill

@Bill : 분명히 일련의 상관 관계가 있습니다. 측정 오류는 2 시간 동안 거의 일정합니다. 그러나 일반적으로 데이터에서 계산 된 표준 헌신보다 크므 로이 질문으로 이어졌습니다.
traindriver

귀하의 질문은 여전히 ​​일련의 상관 관계가 있음을 명확하게 설명하지 못합니다. 불행히도 세 가지 정중하게 구성된 답변이 그다지 유용하지는 않습니다.
Glen_b-복지 주 모니카

답변:


7

이 질문에 대한 이전 답변이 다소 어려울 수 있습니다. 원래의 포스터가 여기에서 실제로 요구하는 것은 "다양한 벡터 측정 값을 제공했습니다 : , 및 측정 공분산 :내가=1,2,3,. . . ,7200C가나는=( X 2 σ , I 0 0 0 Y 2 σ , i가 0 0 0 Z 2 σ , I )

θi=(XiYiZi)
i=1,2,3,...,7200
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
이 일련의 벡터 측정에 대한 공분산 가중 평균을 어떻게 정확하게 계산하고 나중에 표준 편차를 정확하게 계산합니까? "이 질문에 대한 답변은 물리 과학 통계를 전문으로하는 많은 교과서에서 찾을 수 있습니다. 내가 특히 좋아하는 한 가지 예는 Frederick James, "실험 물리학의 통계적 방법" , 제 2 판, World Scientific, 2006, 섹션 11.5.2, "독립 추정값 결합", 323-324 페이지입니다. (위에 제시된 전체 벡터 수량 반대) 스칼라 값에 대한 분산 가중 평균 계산을 설명보다 입문 수준의 텍스트, 필립 R. Bevington 및 D. 키스 로빈슨이다 "물리 과학에 대한 데이터 감소 및 오류 분석 ", McGraw-Hill, 2003, 4.1.x, 3 번째 버전, "데이터의 가중치-불균일 한 불확실성". 이 경우 포스터의 질문에 대각선 공분산 행렬이있는 경우 (즉, 모든 대각선 이외의 요소가 0 임) 문제는 실제로 세 개의 개별 (예 : X, Y, Z) 스칼라 가중 평균 문제로 분리 할 수 ​​있습니다. 베 빙턴과 로빈슨의 분석도 여기에 동일하게 적용됩니다.

일반적으로, stackexchange.com로 질문에 응답 할 때, 나는 일반적으로 유용 이미 수많은 교과서 전에 제시되었다 긴 유도 재 포장을 찾을 수 없습니다 - 당신이 진정으로 자료를 이해하려면를 이해 답이 보일 그들이하는 방식대로, 당신은 정말로 가서 교과서 저자가 이미 출판 한 설명을 읽어야합니다. 이를 염두에두고 다른 사람들이 이미 제공 한 답변을 다시 설명하기 위해 바로 넘어갑니다. 설정 한 Frederick James 에서 가중 평균은 다음과 같습니다. 가중 평균의 공분산은 다음과 같습니다.θ m e a n = ( N N=7200

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
이 답변은 완전히 일반적인 것으로, 비대 각 측정 공분산 행렬의 경우에도 형식입니다 .Ci

이 특정 경우 측정 공분산 대각선 이기 때문에 Bevington 및 Robinson 분석을 사용하여 개별 , 및 대한 분산 가중 평균을 계산할 수도 있습니다 . 스칼라 답변의 형태는 벡터 답변의 형태와 유사합니다. 이며 분산은 또는 동등하게 와 유사하게XiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Ymean,Yσ,meanZmean,Zσ,mean
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,mean및 입니다. 스칼라 반환 사례에 대해 동일한 답변에 도달하는 간단한 위키 백과 항목은 여기에서 확인할 수 있습니다 .Zmean,Zσ,mean

어쩌면 나는 조금 불분명했기 때문에 더 많은 정보를 추가했습니다. 측정 값에 가중치를 부여 할 필요는 없다고 생각합니다.
traindriver

1
네 그렇습니다. 생각 실험처럼 극단적 인 경우를 생각해보십시오. 7200 대신 GPS 측정 값이 2 개라고 가정합니다. GPS 측정 중 하나의 불확실성이 +/- 5 피트이고 다른 측정 값이 + /의 불확실성이 있다고 가정합니다. - 5 마일. 불확실성 수치는 문자 그대로 측정이 얼마나 부 정확한지 알려줍니다. 이는 +/- 5 마일 값이 최소한 몇 마일 떨어져있을 가능성이 있음을 의미합니다. 의미있는 방법으로이 숫자를 평균에 포함 하시겠습니까? 가중치 평균을 사용하면 신뢰할 수없는 값을 할인 할 수 있습니다.
stachyra

1
BTW, 내 대답에는 또 다른 일이 있습니다. 원래 게시물에서 Z 값에서 직접 계산 된 샘플 표준 편차를 사용하지 않으려는 이유는 그 경우에 자신의 말로, "측정 불확실성이 알려져 있다는 사실을 무시하십시오". 내 대답 (실제로 여러분과 공유하고있는 모호한 교과서 답변)은 요청한대로 알려진 측정 불확실성을 사용합니다. 단지 예상했던 것보다 더 많은 장소 (평균 결과 및 표준 편차)에서 정보를 사용한다는 것입니다.
stachyra

당신은 저를 설득했습니다.
traindriver

6

이것은 베이지안 추론을 사용하여 쉽게 해결해야합니다. 실제 값과 관련하여 개별 포인트의 측정 속성을 알고 있으며 실제 값을 생성 한 모집단 평균 및 SD를 추론하려고합니다. 이것은 계층 적 모델입니다.

문제의 표현 (Bayes basics)

정통 통계는 단일 평균을 제공하지만 베이지안 프레임 워크에서는 신뢰할 수있는 평균 값의 분포를 얻습니다. 예를 들어, SD (2, 2, 3)에 대한 관측치 (1, 2, 3)는 최대 우도 추정치 2에 의해 생성 될 수 있었지만 평균 2.1 또는 1.8에 의해 생성되었을 수 있습니다. MLE. 따라서 SD 외에도 평균도 추론합니다 .

또 다른 개념적 차이점은 관찰하기 전에 지식 상태 를 정의해야한다는 것 입니다. 우리는 이것을 우선 순위 라고 부릅니다 . 특정 영역이 스캔되었고 특정 높이 범위에 있음을 미리 알고있을 것입니다. 지식의 완전한 부재는 X와 Y에서 이전과 같이 균일 한 (-90, 90)도를 가질 것이며, 아마도 높이가 바다 (지상에서 가장 높은 지점 아래)에서 균일 한 (0, 10000) 미터 일 것이다. 추정하려는 모든 모수 에 대해 사전 분포 를 정의해야합니다 . 즉, 사후 분포 를 구해야 합니다. 표준 편차에 대해서도 마찬가지입니다.

따라서 문제를 표현하면 세 가지 평균 (X.mean, Y.mean, X.mean)과 세 가지 표준 편차 (X.sd, Y.sd, X.sd)에 대해 신뢰할 수있는 값을 추론하고 싶다고 가정합니다. 데이터를 생성했습니다.

모델

표준 BUGS 구문 (WinBUGS, OpenBUGS, JAGS, stan 또는 기타 패키지를 사용하여이를 실행)을 사용하면 모델은 다음과 같습니다.

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

당연히 .mean 및 .sd 매개 변수를 모니터하고 그 후부를 사용하여 추론합니다.

시뮬레이션

다음과 같은 데이터를 시뮬레이션했습니다.

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

그런 다음 500 번의 번 번 번인 후 JAGS를 사용하여 2000 회 반복 모델을 실행했습니다. X.sd의 결과는 다음과 같습니다.

X.sd의 후부

파란색 범위는 95 % 가장 높은 사후 밀도 또는 신뢰할 수있는 구간을 나타냅니다 (데이터를 관찰 한 후 매개 변수가 있다고 생각하는 경우 정통 신뢰 구간이이를 제공하지 않음).

빨간색 세로선은 원시 데이터의 MLE 추정치입니다. 베이지안 추정에서 가장 가능성있는 모수는 또한 정통 통계에서 가장 가능성있는 (최대 가능성) 모수 인 경우가 일반적입니다. 그러나 당신은 후부의 꼭대기에 너무 신경 쓰지 않아야합니다. 평균 또는 중앙값을 단일 숫자로 끓이려면 더 좋습니다.

잘못된 통계 때문에가 아니라 데이터가 무작위로 생성 되었기 때문에 MLE / top은 5가 아닙니다.

제한

현재 몇 가지 결함이있는 간단한 모델입니다.

  1. -90과 90 도의 정체성을 다루지 않습니다. 그러나 추정 된 매개 변수의 극단적 인 값을 (-90, 90) 범위로 이동시키는 일부 중간 변수를 만들어서 수행 할 수 있습니다.
  2. X, Y 및 Z는 상관 관계가 있지만 현재는 독립적으로 모델링되었으며 데이터를 최대한 활용하려면이를 고려해야합니다. 측정 장치가 이동했는지 (X, Y 및 Z의 직렬 상관 관계 및 공동 분포로 많은 정보를 제공 할 것인지) 정지 상태 (독립성 양호)에 따라 다릅니다. 요청에 따라 답변을 확장하여 이에 접근 할 수 있습니다.

공간 베이지안 모델에 대해 내가 알지 못하는 많은 문헌이 있다는 것을 언급해야한다.


이 답변에 감사드립니다. 고정 스테이션의 데이터이지만 데이터가 독립적임을 의미합니까?
traindriver

@traindriver 우리가 당신을 돕기 위해 직면하는 추론 문제에 대한 더 많은 정보를 제공해야합니다. 최소한 (1) 반복적으로 측정되는 양과 같은 수량인지 지정하는 "업데이트"섹션으로 질문을 확장 할 수 있습니까? 즉 같은 좌표입니다. 또는 스캔 된 영역 또는 ... (2) 평균과 SD를 추론하려는 이유는 무엇입니까? 그것이 영역이라면, SD를 울퉁불퉁 한 것으로 추정하거나 그와 비슷한 것으로 사용하고 싶을 수도 있습니다.
Jonas Lindeløv

원래 게시물에 더 많은 정보를 추가했습니다.
traindriver

3

먼저 몇 가지 표기법을 소개하고 언급 한 간단한 접근 방식을 사용하여 문제를 설정하십시오. 그런 다음 계속하십시오. 내가 사용하는 당신이 준 벡터 Z를 참조하십시오.z

명시 적 언급 측정 오류가없는 다음 모델을 고려하십시오. , 여기서 는 의 평균 추정값 이고 는 Z의 실제 평균값입니다. 여기서, 은 데이터 오류의 벡터로, 표본이 클 경우 는 수렴됩니다 . 관측 된 값을 취하여 평균을 구하면 되고 표본 표준 편차를 계산 하면 실제 모집단 표준 편차의 추정치 인 가됩니다.Z¯=i=1nμZ+ϵinZ¯zμZϵZ¯μZZZ¯σ^σ . 측정 오류에 대한 지식을 활용하려면 어떻게해야합니까?

먼저 초기 모델을 으로 재구성 할 수 있습니다. 여기서 은 로 구성된 벡터이며 는 . 이제 이것은 실제로 회귀처럼 보이지만 기본적으로 의 추정치를 . 우리는이 같은 회귀 분석을 수행 할 경우, 우리는 또한의 표준 오차에 대한 추정 얻을 것이다 우리가 원하는 것을 거의이다 -이 아무것도하지만의 표준 오차입니다 (하지만 우리는 여전히에 대한 계정에 원하는 측정 오류).1 β ˉ Z μ Z ϵ zz=1β+ϵ1βZ¯μZϵz

초기 모델을 보강하여 혼합 효과 모델을 얻을 수 있습니다. (여기서 는 임의 효과의 벡터이며, 는 를 와 관련한 회귀 분석기입니다. . 임의의 효과와 마찬가지로 의 분포에 대한 가정을해야합니다 . 가 대한 측정 오차의 분포 라는 것이 맞습니까?u Q z u u Z σ zz=1β+Qu+ϵuQzuuZσz? 그렇다면 랜덤 효과의 분포를 제공하는 데 사용될 수 있습니다. 일반적으로 기본 혼합 효과 모델링을 수행하는 소프트웨어는 임의 효과에 정규 분포 (평균 0 ...)가 있다고 가정하고 분산을 추정합니다. 아마도 개념을 테스트하기 위해 이것을 시도 할 수 있습니다. 측정 오차 분포에 대한 사전 정보를 사용하려면 베이지안 혼합 효과 모델이 적합합니다. R2OpenBUGS를 사용할 수 있습니다.

이 모형을 추정 한 후 잔차 에 대해 발생하는 표준 오차는 관심을 나타내는 표준 오차입니다. 직관적으로, 모형의 랜덤 효과 성분은 측정이 있다는 것을 알 수 있기 때문에 설명 할 수있는 일부 변형을 흡수합니다. 오류. 이를 통해 의 변동에 대한보다 적절한 추정치를 얻을 수 있습니다.ϵϵϵ

측정 오류를 설명하기위한이 랜덤 효과 접근 방식에 대한 자세한 내용은 이 백서 를 참조하십시오 . 귀하의 상황은 작성자가 대해 소개 한 것과 비슷 하며 측정 오류로 인해 버전이 손상되었습니다 . 섹션 4의 예는 상황에 대한 통찰력을 제공 할 수 있습니다.WDW

whuber가 언급했듯이 데이터의 자기 상관을 설명 할 수 있습니다. 무작위 효과를 사용해도 문제가 해결되지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.