두 정규 분포 변수의 비율 또는 하나의 역을 매개 변수화하는 방법은 무엇입니까?


12

문제점 : 베이지안 메타 분석에서 사전 및 데이터로 사용할 분포를 매개 변수화하고 있습니다. 이 자료는 문헌에 요약 통계로 제공되며, 거의 독점적으로 정규 분포로 가정됩니다 (변수는 0보다 작을 수없고 일부는 비율, 일부는 질량 등임).

나는 해결책이없는 두 가지 사례를 보았습니다. 때로는 관심있는 매개 변수가 데이터의 역수 또는 두 변수의 비율입니다.

예 :

  1. 정규 분포 변수 2 개의 비율 :
    • 데이터 : 퍼센트 질소 및 퍼센트 탄소에 대한 평균 및 sd
    • 매개 변수 : 탄소 대 질소의 비율.
  2. 정규 분포 변수의 역수 :
    • 데이터 : 질량 / 면적
    • 매개 변수 : 면적 / 질량

내 현재 접근 방식은 시뮬레이션을 사용하는 것입니다.

예 : xbar.n, c, 분산 : se.n, c 및 표본 크기 : nn, nc :

set.seed(1)
per.c <- rnorm(100000, xbar.c, se.c*n.c) # percent C
per.n <- rnorm(100000, xbar.n, se.n*n.n) # percent N

ratio.cn = perc.c / perc.n을 매개 변수화하고 싶습니다.

# parameter of interest
ratio.cn <- perc.c / perc.n

그런 다음 이전의 범위에 가장 적합한 분포를 선택하십시오.0

library(MASS)
dist.fig <- list()
for(dist.i in c('gamma', 'lognormal', 'weibull')) {
    dist.fit[[dist.i]] <- fitdist(ratio.cn, dist.i)
}

질문 : 이것은 유효한 접근 방법입니까? 다른 / 더 나은 접근법이 있습니까?

미리 감사드립니다!

업데이트 : 인 두 법선의 비율로 정의 된 Cauchy 분포는 분산을 추정하고 싶기 때문에 유틸리티가 제한적입니다. 아마도 Cauchy에서 n 개의 시뮬레이션의 분산을 계산할 수 있습니까?μ=0

다음과 같은 폐쇄 형 근사치를 찾았지만 동일한 결과를 제공하는지 테스트하지 않았습니다 ... Hayya et al, 1975

μ^y:x=μy/mux+σx2μy/μx3+cov(x,y)σx2σy2/μx2
σ^y:x2=σx2×μy/mux4+σy2/mux22cov(x,y)σx2σy2/mux3

Hayya, J. and Armstrong, D. and Gressis, N., 1975. 정규 분포 변수 2 개의 비율에 대한 메모. 경영 과학 21 : 1338--1341


코시의 무작위 추첨에 대한 분산 계산에 대한 업데이트 질문을 별도의 질문으로 게시해야합니까?
David LeBauer

david-변수가 모두 양수이므로 왜 으로 소란을 원 하십니까? btw-시뮬레이션에서 독립적 인 c. 및 per.n 당 변수를 생성하는 것 같습니다. 맞습니까? 그렇다면 원하는 것입니까? μ=0
ronaf

아니요, = 0 으로 소란을 피하고 싶지 않습니다 . 이러한 변수는 일반적으로 독립적으로 취급되며 공분산 데이터는 거의 없습니다. C는 상당히 일정하기 때문에 독립성은 합리적인 가정입니다. μ
David LeBauer

비율에 대한 기대가 존재하지 않는 이유를 이해하지 못합니다. 경우 및 공동 통상, 제로의 평균보다 평균 다른 배포되는 로 주어진다 , 내가 무엇을 놓치고 있습니까? Y Z = XXYxZ=XYxyp(x,y)dxdy
Royi

답변:


6

비율 분포 에 대한 Wikipedia 기사에서 일부 참조를 볼 수 있습니다 . 더 나은 근사치 또는 분포를 사용할 수 있습니다. 그렇지 않으면, 당신의 접근은 건전 해 보인다.

업데이트 내가 더 좋은 참조가 될 것 같아요 :

195 페이지의 공식 2-4를 참조하십시오.

업데이트 2

John Cook이 주석에서 지적했듯이 Cauchy의 분산과 관련하여 업데이트 된 질문에서 분산은 존재하지 않습니다. 따라서 표본 분산을 취하는 것은 단순히 "추정자"로 작동하지 않습니다. 실제로 샘플 분산이 전혀 수렴하지 않고 샘플을 계속 수집함에 따라 크게 변동하는 것을 알 수 있습니다.


참조에 감사드립니다. 여기서 Haaya 1975 참조와 내 질문에있는 방정식을 찾았지만 방정식이 내 문제에 적합하다는 것을 확신 할 수 있습니다.
David LeBauer

Haaya를 간단히 살펴보면 비율에 대한 정규 근사값을 얻는 데 관심이 있고 시뮬레이션을 사용하여 적용 시점을 결정합니다 (변이 계수 cv 사용). 귀하의 경우 이력서가 기준을 충족합니까? 그렇다면 근사값이 적용됩니다.
ars

1
@David : 답변에서 업데이트 된대로 Marsaglia 1965를 대신 사용하십시오.
ars

NB : Marsaglia 는 2004 년 JSS에 업데이트를 게시했습니다 .
David LeBauer 19

비율에 대한 기대가 존재하지 않는 이유를 이해하지 못합니다. 경우 및 공동 통상, 제로의 평균보다 평균 다른 배포되는 로 주어진다 , 내가 무엇을 놓치고 있습니까? Y Z = XXYxZ=XYxyp(x,y)dxdy
Royi

0

정규 랜덤 변수의 역함수에 대해 이라고 가정 하고 정규 분포에 대한 적절한 모수를 식별 한 후 필요한 베이지안 계산을 수행 할 수 없습니다.y1N(.,.)

Cauchy를 사용하라는 아래의 제안은 ars와 John의 의견에서 지적한대로 작동하지 않습니다.

두 개의 정규 확률 변수의 비율은 Cauchy 분포를 따릅니다 . 이 아이디어를 사용하여 보유하고있는 데이터와 가장 일치하는 코시의 매개 변수를 식별 할 수 있습니다.


ㅏ. 분산을 추정해야하며 Cauchy 분포의 분산이 정의되어 있지 않습니다.
David LeBauer

비. 두 번째 요점을 이해하면 y-1 ~ N (mu, sigma)라고 가정 할 수 있지만 y에 대해 제공된 요약 통계에서 mu 및 sigma를 계산해야합니다. 또한, 정의 된 변수 만> 0 인 경우 <0 값을 갖는 분포를 고려하지 않기로 선택했습니다 (많은 경우 p (X <0 | X ~ N (mu, s))-> 0)
David LeBauer

코시는 제로 평균 법선을 적용하지 않습니까?
ars

@ars 당신은 맞습니다. 그런 다음 코시는 제한적으로 사용될 수 있습니다.

Ars : 그렇습니다. Cauchy 결과에는 제로 평균이 필요하다고 생각합니다. 그러나 그것은 여전히 ​​그 특별한 경우에 다윗이 추정하려는 분산이 존재하지 않는다는 것을 의미합니다.
John D. Cook
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.