대략 정규 분포의 규모를 추정하기위한 강력한 베이지안 모델은 무엇입니까?


32

많은 규모강력한 추정기 가 존재한다 . 주목할만한 예로는 표준 편차와 의 중앙값 절대 편차가 σ=에이1.4826있습니다. 베이지안 프레임 워크에는 대략 정규 분포 (예 : 특이 치로 오염 된 정규 분포) 의 위치 를 강력하게 추정 할 수있는 여러 가지 방법이 있습니다. 예를 들어 데이터가 분포 또는 라플라스 분포에서와 같이 분포되어 있다고 가정 할 수 있습니다. 이제 내 질문 :

대략적인 정규 분포 의 척도 를 강력한 방식으로 측정하기위한 베이지안 모델 은 MAD 또는 이와 유사한 견고성 추정기와 같은 의미에서 어떻게 강력합니까?

MAD의 경우와 마찬가지로 데이터 분포가 실제로 정규 분포 인 경우 베이지안 모형이 정규 분포의 SD에 접근 할 수 있다면 깔끔 할 것입니다.

편집 1 :

데이터 가정 할 때 오염 / 아웃 라이어에 강하다는 모델의 전형적인 예 와이나는대략 같은 분포를 사용하는 정상 :

와이나는(,에스,ν)

어디 평균이며, 에스 규모이며, ν 정도-의 자유입니다. ,에스 에 대한 적절한 우선 순위를 갖는 경우 ν, 은 특이 치에 대해 강건한 의 평균 추정치입니다 와이나는. 단, 에스 의 SD 일관된 추정치 없습니다 와이나는에스 에 따라 ν . 예를 들어, ν 가 4.0으로 고정되고 위의 모형이 영형아르 자형(μ=0,σ=1) 분배 후에스 약 0.82 일 것이다. 내가 찾고있는 것은 t 모델과 같이 견고하지만 평균 대신 SD에 대한 SD 모델입니다.

편집 2 :

다음은 위에서 언급 한 t- 모델이 평균에 대해 어떻게 더 강력한 지에 대한 R 및 JAGS의 코드화 된 예입니다.

# generating some contaminated data
y <- c( rnorm(100, mean=10, sd=10), 
        rnorm(10, mean=100, sd= 100))

#### A "standard" normal model ####
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dnorm(mu, inv_sigma2)
  }

  mu ~ dnorm(0, 0.00001)
  inv_sigma2 ~ dgamma(0.0001, 0.0001)
  sigma <- 1 / sqrt(inv_sigma2)
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=10000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
##  2.5%   25%   50%   75% 97.5% 
##   9.8  14.3  16.8  19.2  24.1 

#### A (more) robust t-model ####
library(rjags)
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dt(mu, inv_s2, nu)
  }

  mu ~ dnorm(0, 0.00001)
  inv_s2 ~ dgamma(0.0001,0.0001)
  s <- 1 / sqrt(inv_s2)
  nu ~ dexp(1/30) 
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=1000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
## 2.5%   25%   50%   75% 97.5% 
##8.03  9.35  9.99 10.71 12.14 

어쩌면 충분히 견고하지는 않지만 카이 제곱 분포는 분산의 역 분배 전에 일반적으로 선택된 공액입니다.
Mike Dunlavey

이 질문에 대한 첫 번째 답변 stats.stackexchange.com/questions/6493/… 이 충분한 지 알고 싶을 것입니다. 그렇지 않을 수도 있지만 아마도있을 수도 있습니다.
jbowman

오염 수준이 무엇입니까? 오염이 체계적인가? 무작위? 단일 배포 또는 여러 배포에 의해 생성됩니까? 소음 분포에 대해 알고 있습니까? 위의 것들 중 적어도 일부가 알려지면 일종의 혼합 모델에 적합 할 수 있습니다. 그렇지 않으면, 나는이 문제에 대한 당신의 믿음이 실제로 무엇인지 확신하지 못하며, 이것 이외의 것이 없다면 매우 모호한 설정처럼 보입니다. 무언가를 고쳐야합니다. 그렇지 않으면 무작위로 점을 선택하여 가우스 생성 점으로 선언 할 수 있습니다.
의미 의미

그러나 일반적으로 특이 치에 더 강한 t- 분포 또는 t- 분포의 혼합에 적합 할 수 있습니다. 여기에 Bishop research.microsoft.com/en-us/um/people/cmbishop/downloads/의 논문이 많이 있으며 여기에는 혼합물에 맞는 R 패키지가 있습니다 : maths.uq.edu. au / ~ gjm / mix_soft / EMMIX_R / EMMIX-manual.pdf
의미 의미

1
귀하의 은 정규 분포 모집단의 경우에 해당하지만 대부분의 다른 분포에는 해당되지 않습니다σ=에이1.4826
Henry

답변:


10

사전에 적절한 T 노이즈 모델의 베이지안 추론은 위치와 규모를 강력하게 추정합니다. Andrade and O'Hagan (2011)에 의해 위치 및 스케일 파라미터의 베이지안 견고성 모델링 논문에서 가능성과 사전에 충족시켜야 할 정확한 조건이 제시되어있다 . 이 추정치는 논문의 그림 2에서 볼 수 있듯이 단일 관측으로 인해 추정치가 임의로 크게 만들 수 없다는 점에서 견고합니다.

데이터가 정규 분포 일 때 적합 T 분포의 SD (고정 )가 생성 분포의 SD와 일치하지 않습니다. 그러나 이것은 쉽게 고칠 수 있습니다. 하자 σ는 상기 생성 분포의 표준 편차하고하자 의는 피팅 된 T 분포의 표준 편차합니다. 데이터가 2로 스케일링되면 우도의 형태에서 s 가 2로 스케일링되어야 함을 알 수 있습니다. 이는 일부 고정 함수 f에 대해 s = σ f ( ν ) 를 의미합니다 . 이 함수는 표준 법선에서 시뮬레이션하여 수치 적으로 계산할 수 있습니다. 이를 수행하는 코드는 다음과 같습니다.νσsss=σf(ν)f

library(stats)
library(stats4)
y = rnorm(100000, mean=0,sd=1)
nu = 4
nLL = function(s) -sum(stats::dt(y/s,nu,log=TRUE)-log(s))
fit = mle(nLL, start=list(s=1), method="Brent", lower=0.5, upper=2)
# the variance of a standard T is nu/(nu-2)
print(coef(fit)*sqrt(nu/(nu-2)))

예를 들어,에 I 얻을 F ( ν ) = 1.18 . 원하는 추정기는이고 σ = S / F ( ν ) .ν=4f(ν)=1.18σ^=s/f(ν)


1
좋은 답변입니다 (+1). '단일 관측치로 인해 추정치가 임의로 커질 수 없다는 점에서 고 장점은 2 / n입니다 (이것에 대해 궁금했습니다) .... 비교의 관점에서 볼 때, 내 대답에 설명 된 절차는 n / 2.
user603

와우 고마워! 퍼지 후속 질문. 그런 다음 실제로 스케일을 "수정"하여 보통의 경우 SD와 일치하도록하는 것이 합리적 입니까? 내가 생각하는 유스 케이스는 스프레드 측정을보고 할 때입니다. 보고 규모에는 문제가 없지만 SD (최소한 심리학에서는)의 가장 일반적인 확산 척도이므로 SD와 일치하는 것을보고하는 것이 좋습니다. 이 수정이 이상하고 일관되지 않은 추정치로 이어지는 상황을 보십니까?
Rasmus Bååth

6

매우 정확한 문제 (강력한 추정)에 대해 질문 할 때 똑같이 정확한 답변을 제공 할 것입니다. 그러나 먼저, 부주의 한 가정을 없애려고 노력할 것입니다. 그것은 위치의 강력한 베이지안 추정이 있다는 사실이 아니다 (위치 베이지안 추정량이있다 그러나 나는 그들이 아래 설명과 같이 견고하지 않으며 분명히 , 위치도 간단한 강력한 추정이 베이지안하지 않습니다). 제 생각에, 로케이션 사례에서 '베이지안'과 '견고한'패러다임 사이에 겹침이없는 이유는 왜 강력하고 베이 시안 인 분산 추정기가 없는지 설명하는 데 크게 도움이됩니다.

ν 에 대한 적절한 우선 순위를 갖는 경우 , m 은 특이 치에 대해 강건한 y i 의 평균 추정치입니다 .m,에스ν와이나는

사실은 아닙니다. 결과 추정치는 견고하다는 단어 의 매우 약한 의미 에서만 견고합니다. 그러나 중앙값이 특이 치에 대해 강력 하다고 말할 때 훨씬 더 강력한 의미에서 단어가 강력 함 을 의미합니다. 즉, 강력한 통계에서 중앙값의 견고성은 단일 모달 연속 모델에서 가져온 관측치 데이터 집합에 대한 중앙값을 계산 한 다음 이러한 관측치의 절반 미만을 임의의 값으로 대체하는 속성을 나타냅니다. , 오염 된 데이터에서 계산 된 중앙값은 원래 (오염되지 않은) 데이터 세트에서 계산했을 때의 값에 가깝습니다. 그런 다음 위에서 인용 한 단락에서 제안한 추정 전략이 확실히 아니라는 것을 쉽게 알 수 있습니다. 단어가 중간 값에 대해 일반적으로 이해되는 방식에서 견고합니다.

나는 베이지안 분석에 전적으로 익숙하지 않습니다. 그러나 다음 전략이 간단하고 효과적이며 다른 답변에서는 고려되지 않았으므로 다음 전략의 문제점이 무엇인지 궁금합니다. 이전에는 데이터의 좋은 부분이 대칭 분포 오고 오염 률이 절반보다 작습니다. 그런 다음 간단한 전략은 다음과 같습니다.에프

  1. 데이터 세트의 중앙값 / 매드를 계산합니다. 그런 다음 계산하십시오 :
    나는=|엑스나는메드(엑스)|미친(엑스)
  2. z i > q 인 관측치를 제외(이것은 인α분위수 분포의Z이X~F). 이 수량은 많은F를선택할수 있으며 다른 것들은 부트 스트랩 할 수 있습니다.나는>α(|엑스에프)αzxFF
  3. 거부되지 않은 관측치에 대해 (일반적이고 비 강건한) 베이지안 분석을 실행합니다.

편집하다:

문제에 대한 본의 베이지안 분석을 수행하기 위해 자체 포함 된 R 코드를 제공하는 OP 덕분입니다.

아래의 코드는 로버 스트 통계 문헌에서의 대체에 OP 제안한 베이지안 접근법을 비교한다 (예를 들면, 데이터가 한 많이 함유 할 수있는 경우에 대해 가우스 제안한 피팅 법 이상치와의 분포 데이터의 좋은 부분은 가우시안입니다).n/22

데이터의 중심 부분은 .N(1000,1)

n<-100
set.seed(123)
y<-rnorm(n,1000,1)

오염 물질을 약간 첨가하십시오 :

y[1:30]<-y[1:30]/100-1000 
w<-rep(0,n)
w[1:30]<-1

지수 w는 특이 치에 대해 값 1을 갖습니다. OP가 제안한 접근 방식으로 시작합니다.

library("rjags")
model_string<-"model{
  for(i in 1:length(y)){
    y[i]~dt(mu,inv_s2,nu)
  }
  mu~dnorm(0,0.00001)
  inv_s2~dgamma(0.0001,0.0001)
  s<-1/sqrt(inv_s2)
  nu~dexp(1/30) 
}"

model<-jags.model(textConnection(model_string),list(y=y))
mcmc_samples<-coda.samples(model,"mu",n.iter=1000)
print(summary(mcmc_samples)$statistics[1:2])
summary(mcmc_samples)

나는 얻다:

     Mean        SD 
384.2283  97.0445 

과:

2. Quantiles for each variable:

 2.5%   25%   50%   75% 97.5% 
184.6 324.3 384.7 448.4 577.7 

(목표 값에서 멀어짐)

견고한 방법의 경우

z<-abs(y-median(y))/mad(y)
th<-max(abs(rnorm(length(y))))
print(c(mean(y[which(z<=th)]),sd(y[which(z<=th)])))

하나는 얻는다 :

 1000.149 0.8827613

(목표 값에 매우 근접 함)

두 번째 결과는 실제 값에 훨씬 가깝습니다. 그러나 최악입니다. 추정 된 점수가 더 큰 관측치 ( 이상 은 F 가 가우시안 이라는 것을 기억하십시오)를 이상치로 분류 하면 베이지안 접근법은 모든 관측치가 이상치 임을 발견합니다 (강력한 절차, 대조적으로 모든 플래그 및 이상치 만). 이는 또한 강력한 절차에 의해 특이 치로 분류되지 않은 데이터에 대해 일반적인 (강건하지 않은) 베이지안 분석을 실행하는 경우에는 정밀하게 수행해야합니다 (예 : 질문에 명시된 목표를 달성).zthF
(그리고의 2 장에서, 예를 들어 참조 공식적으로 할 수있다 [1]) 학생의 매개 변수 이건 그냥 예입니다,하지만 그것을 보여 실제로는 매우 간단합니다 오염 된 데이터에 장착 분포에 의존 할 수없는 공개 특이 치. t

  • [1] Ricardo A. Maronna, Douglas R. Martin, Victor J. Yohai (2006). 강력한 통계 : 이론 및 방법 (확률 및 통계의 Wiley 시리즈).
  • PJ Huber (1981). 강력한 통계. 뉴욕 : John Wiley and Sons.

1
t는 종종 정규 분포에 대한 강력한 대안으로 제안됩니다. 이것이 약한 의미인지 아닌지 모르겠습니다. 예를 들어 : Lange, KL, Little, RJ, & Taylor, JM (1989) 참조. t 분포를 사용한 강력한 통계 모델링. 미국 통계 협회 저널 , 84 (408), 881-896. pdf
Rasmus Bååth

1
이것은 약한 의미입니다. 제안한 절차를 구현하는 R 코드가 있다면 예를 들어 내 대답을 설명해 드리겠습니다. 그렇지 않으면 교재의 2 장에서 더 많은 설명을 얻을 수 있습니다 .
user603

내가 제안하는 절차는 기본적으로 여기에 설명되어 있습니다 : R 코드를 포함하여 indiana.edu/~kruschke/BEST . 나는 당신의 해결책에 대해 생각해야 할 것입니다! 그러나 모든 데이터를 모델링하는 것이 아니라 2 단계에서 "생존하는"하위 집합이라는 점에서 베이지안처럼 보이지 않습니다.
Rasmus Bååth


1
나는 지금 그렇게했다!
Rasmus Bååth

1

베이시스 분석 에서 정밀도 ( 분산역수)에 대한 역 감마 분포 를 사용 하는 것이 일반적인 선택입니다. 또는 다변량 모델에 대한 역 Wishart 분포. 분산에 사전을 추가하면 특이 치에 대한 견고성이 향상됩니다.

Andrew Gelman의 좋은 논문이 있습니다 : "계층 적 모델에서 분산 모수에 대한 이전 분포"는 분산에 대한 선행에 어떤 좋은 선택이 있는지 설명합니다.


4
미안하지만 이것이 어떻게 질문에 대답하는지 알 수 없습니다. 나는 탄탄한 사전을 요구 한 것이 아니라 탄탄한 모델을 요구했다 .
Rasmus Bååth

0

μNσ2μtN

σD

D|μ,σN(μ,σ2)
D(d1,,dN)
p(D|μ,σ2)=1(2πσ)Nexp(N2σ2((mμ2)+s2))
ms2
m=1Ni=1Ndis2=1Ni=1Ndi2m2
p(μ,σ2|D)p(D|μ,σ2)p(μ,σ2)
(μ,σ2)p(μ,σ2|D)p(σ2|D)
σ2|DIG(α+N/2,2β+Ns2)α,β>0
σ2αβtμ

1
σ2

1
그것은 모두 당신이 의미하는 바에 달려 있습니다. 지금 말하는 것은 견고성 WRT 데이터를 원한다는 것입니다. 내가 제안한 것은 견고성 wrt 모델의 잘못된 사양이었습니다. 그것들은 서로 다른 유형의 견고성입니다.
yannick

2
필자가 제공 한 예제, MAD분포에서 데이터의 분포로 사용하는 예는 데이터에 대한 견고성 의 예라고 말할 수 있습니다.
Rasmus Bååth

I는 라스무스 바로 말할 것 등 BDA3의 겔만 어 등은,하고자하고자 번째 t 분포가 동일한 위치 매개 변수에 대한 정상보다 오르게 꼬리를 가지고 있는지에 대한 기본적인 이해
성급한 평형

0

나는 원래 질문에서 토론을 따랐다. Rasmus 당신이 견고성을 말할 때 나는 당신이 데이터를 의미한다고 확신합니다 (분포의 미스 스펙이 아닌 이상치). 데이터 분포를 t- 분포 대신 라플라스 분포로 가져 오면 평균을 모델링하는 정규 회귀 분석 에서처럼 중간 회귀 (일명 중간 회귀)를 모델링합니다 (모두 알고 있음). 모델을 다음과 같이하십시오.

Y=βX+ϵϵ(0,σ2) 입니다.

f(β,σ,Y,X)βσ2. Gibbs 샘플러를 사용하면 어떻게됩니까? 정상적인 이전 + 라플라스 가능성 = ???? 우리는 알고 있습니다. 또한 카이-제곱 이전 + laplace 가능성 = ??? 우리는 분포를 모른다. 다행스럽게도 (Aslan, 2010)에는 라플라스 가능성을 정규 분포의 규모 혼합으로 변환 한 다음 이전의 공액 특성을 즐길 수있는 정리가 있습니다. 설명 된 전체 프로세스가 특이 치 측면에서 완전히 강력하다고 생각합니다. 다변량 설정에서 카이 제곱은 희망 분포가되고, 다변량 라플라스와 정규 분포를 사용합니다.


2
귀하의 솔루션은 위치 (평균 / 중앙)의 강력한 추정에 초점을 맞추고있는 것 같습니다. 내 질문은 오히려 데이터 생성 분포가 실제로 정상일 때 SD를 검색하는 것과 관련하여 일관성 속성으로 스케일을 추정하는 것에 관한 것이 었습니다.
Rasmus Bååth

정확한 위치 추정으로, 위치의 함수로서의 스케일은 위치의 견고성으로부터 즉시 이익을 얻습니다. 스케일을 강력하게 만드는 다른 방법은 없습니다.
Chamberlain Foncha

어쨌든 나는이 문제가 어떻게 강조되었는지에 따라 정규 분포로 어떻게 다루어 질지를 열심히 기다리고 있다고 말해야합니다.
Chamberlain Foncha

0

당신이 가지고 있다고 가정 케이 그룹 및 일부 공변량과 관련하여 표본 분산의 분포를 모델링하려고합니다. 엑스. 즉, 그룹의 데이터 포인트가케이1케이 이다 바르(와이케이)[0,). 여기서 문제는 "샘플 분산의 가능성에 대한 강력한 모델은 무엇입니까?"입니다. 이에 접근하는 한 가지 방법은 변환 된 데이터를 모델링하는 것입니다ln[바르(와이케이)] 에서 오는 이미 언급했듯이 분포는 정규 분포의 강력한 버전입니다. 변환 된 분산이 다음과 같이 대략적으로 정상이라고 가정하고 싶지 않다그런 다음 동일한 위치의 다른 분포와 비교할 때 꼬리가 굵은 것으로 알려진 양의 실제지지를 갖는 확률 분포를 선택할 수 있습니다. 예를 들어, 로그 정규 분포 또는 감마 분포에 꼬리가 더 큰지 에 대한 Cross Validated 에 대한 최근의 답변이 있으며 , 로그 정규 분포에 해당하는 것으로 나타났습니다 ( 기여에 대한 @Glen_b 덕분 ). 또한 하프 코키 가족을 탐험 할 수 있습니다.

정규 분포에 대해 척도 모수를 통해 이전 분포를 할당하는 경우 유사한 추론이 적용됩니다. 접선으로, 사후 근사 근사를 위해 사전에 회피 경계를 형성하려는 경우 로그 정규 분포 및 역 감마 분포는 바람직하지 않습니다. 자세한 내용은 BDA3 13 장을 참조하십시오. 따라서 꼬리 두께 측면에서 견고한 모델을 식별하는 것 외에도 첨도는 추론에 중요 할 수 있습니다.

최근 질문에 대한 답변이 도움이 되었기를 바랍니다.


1
내 질문은 하나의 그룹이있을 때의 상황과 그 그룹의 규모를 강력하게 추정하는 방법에 관한 것입니다. 특이 치의 경우 표본 분산이 강력하다고 생각하지 않습니다.
Rasmus Bååth

하나의 그룹이 있고 정규 분포를 추정하는 경우 질문은 이전 초과 척도 모수의 형태에 적용됩니다. 내 대답에서 알 수 있듯이 로그 변환을 통해 분포에서 사용하거나 긍정적 인 실제 지원을 가진 뚱뚱한 꼬리 분포를 선택할 수 있습니다. 결론적으로, 척도 모수에 대한 강력한 모형을 원한다면, 로그 변환 또는 다른 팻 테일 분포를 통한 분포에서 사용하십시오.
Brash Equilibrium
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.