로그 정규 분포의 모멘트 추정치


25

로그 정규 분포 샘플링으로 구성된 몇 가지 수치 실험을 하고 두 가지 방법으로 모멘트 을 추정하려고 합니다.XLN(μ,σ)E[Xn]

  1. 의 표본 평균을 보면Xn
  2. 의 표본 평균을 사용하여 및 를 추정 한 다음 로그 정규 분포의 경우 .μσ2log(X),log2(X)E[Xn]=exp(nμ+(nσ)2/2)

문제는 :

실험적으로 두 번째 방법은 첫 번째 방법보다 성능이 우수하다는 것을 알았습니다. 샘플 수를 고정하고 T 를 요인 T 만큼 증가시킵니다 .이 사실에 대한 간단한 설명이 있습니까?μ,σ2

x 축이 T 인 그림을 첨부하고 y 축은 의 실제 값을 비교하는 (주황색 선), 추정값. 방법 1-파란색 점, 방법 2-녹색 점. y 축은 로그 스케일입니다E[X2]E[X2]=exp(2μ+2σ2)

$ \ mathbb {E} [X ^ 2] $에 대한 참값 및 추정값.  파란색 점은 $ \ mathbb {E} [X ^ 2] $ (방법 1)의 표본 평균이며 녹색 점은 방법 2를 사용하여 추정 된 값입니다. 주황색 ​​선은 알려진 $ \ mu $, $ \에서 계산됩니다. 방법 2에서와 동일한 방정식으로 sigma $

편집하다:

아래는 출력과 함께 하나의 T에 대한 결과를 생성하는 최소 Mathematica 코드입니다.

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

산출:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

위의 두 번째 결과는 의 표본 평균으로 , 두 개의 다른 결과보다 낮습니다.r2


2
바이어스되지 않은 추정기는 파란색 점이 예상 값 (주황색 곡선)에 가까워 야 함을 의미 하지 않습니다 . 추정기가 너무 낮을 확률이 높고 너무 작을 가능성이 작 으면 (아마도 너무 작음) 추정기가 편향 될 수 있습니다. 그것이 T가 증가하고 분산이 크게 커질 때 발생하는 것입니다 (내 대답 참조).
Matthew Gunn

바이어스되지 않은 추정량을 얻는 방법은 stats.stackexchange.com/questions/105717을 참조하십시오 . 평균 및 분산의 UMVUE가 이에 대한 답변 및 의견에 제공된다.
whuber

답변:


22

그 결과에 수수께끼가 있습니다.

  1. 첫 번째 방법은 의 편견없는 추정값을 제공합니다 . 즉 는 를 의미합니다. 따라서 파란색 점은 예상 값 (주황색 곡선) 주위에 있어야합니다.1E[X2] E[X2]
    1Ni=1NXi2
    E[X2]
  2. 두 번째 방법은 의 바이어스 추정기 , 즉 및 가 각각 및 의 바이어스되지 않은 추정값 인 경우 이므로 녹색 점이 정렬되는 것이 이상합니다. 주황색 곡선으로.E [ EXP ( N μ + N 2 σ (2) / 2 ) ] > EXP ( N μ + ( N σ ) 2 / 2 ) μE[X2]
    E[exp(nμ^+n2σ^2/2)]>exp(nμ+(nσ)2/2)
    μ^σ^²μσ²

그러나 숫자 계산이 아니라 문제로 인한 것입니다 .R에서 실험을 반복하고 동일한 색상 코드와 동일한 및 시퀀스를 사용하여 다음 그림을 얻었습니다. 각 추정량을 나눈 값 진정한 기대에 의해 :μTσT

10⁶ 로그-정규 시뮬레이션에 기반한 두 개의 경험적인 두 번째 순간

해당 R 코드는 다음과 같습니다.

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

따라서 A와 두 번째 실험 순간 붕괴 실제로 존재 와 I의 변화에서의 거대한 증가로 특성 것이라고 증가는 초 경험적 순간 상기 와 증가.μσμσ

이 흥미로운 현상 제 설명하면서 그이다 분명 평균 인 , 그것을 중심 값 아니다 : 실제로 중앙값 같다 . 에서 임의 변수 를 으로 표시 할 때 가 큰 경우 분명합니다. 충분히 임의의 변수 은 거의 의 크기에 해당하지 않습니다 . 즉, 가E[X2]X2X2e2μX2exp{2μ+2σϵ}ϵN(0,1)σσϵσ2XLN(μ,σ)

P(X2>E[X2])=P(log{X2}>2μ+2σ2)=P(μ+σϵ>μ+σ2)=P(ϵ>σ)=1Φ(σ)
는 임의로 작을 수 있습니다.

1
나도 의아해합니다. 나는 결과에 최소한의 코드 (티카)를 추가 해요
user29918

승인. 감사! 약간의 숫자를 넣으면, 빈약 한 샘플 크기가 실제로 작업에 적합하지 않은 것을 알 수 있습니다!
user29918

2
@ user29918 : 죄송합니다. 샘플 크기를 문제로 보지 않지만 가 무한대로 커지면 쓸모없는 것으로 로그 정규 값이 매우 치우친다는 사실이 있습니다. σ
시안

2
@ Xi'an 좋은 물건! 입니다. 그것은 정확하게 말로 표현하려고했던 것을 정확하게 방정식으로 포착합니다. 가 증가함에 따라 관찰이 평균보다 낮을 가능성이 점점 커지고 있습니다 ( 확실히 큰 경우). 실제로 확률이 너무 높아서 전체 표본이 평균보다 낮을 가능성이 높습니다! P(X2>E[X2])=1Φ(σ)σσ
Matthew Gunn

2
이러한 유형의 점근선은 모멘트를 정확하게 근사하는데 필요한 시뮬레이션 수가 기하 급수적으로 빠르게 증가한다는 점에서 크게 도움이되지 않습니다 . σ
시안

13

나는 user29918과 Xi'an의 음모가 일치한다는 것을 보여주는 무화과를 던질 것이라고 생각했습니다. 그림 1은 user29918이 한 일을 나타내고 그림 2 (동일한 데이터를 기반으로)는 Xi'an이 자신의 음모를 위해 한 일을합니다. 동일한 결과, 다른 프리젠 테이션.

무슨 일이 일어나고 T가 증가함에 따라 분산이 커지고 추정기 가 Lotto 티켓을 구매하여 Powerball Lotto의 모집단 평균을 추정하려고하는 것처럼됩니다! 시간의 큰 비율은 (샘플이 잭팟에 닿지 않기 때문에) 지불액을 과소 평가하고 시간의 작은 비율은 (샘플에 잭팟 당첨자가 있기 때문에) 지불을 과대 평가할 것입니다. 표본 평균은 편견없는 추정치이지만 수천 및 수천 개의 추첨에서도 정확하지는 않습니다. 실제로, 로또를 얻기가 점점 더 어려워 짐에 따라 표본 평균이 모집단 아래에있을 것이므로 대부분의 시간을 의미합니다.1nixi2

추가 의견 :

  1. 편견이없는 추정량이 추정기가 가까이 있다는 것을 의미 하지는 않습니다 ! 파란 점이 예상 근처에있을 필요는 없습니다 . 예 : 무작위로 선택된 단일 관측치는 모집단 평균의 편견없는 추정치를 제공하지만 추정기는 근접하지 않을 것으로 예상됩니다.
  2. 차이가 절대적으로 천문학적으로 변함에 따라 문제가 다가오고 있습니다. 분산이 엉망이됨에 따라 첫 번째 방법에 대한 추정치가 몇 가지 관찰에 불과합니다. 당신은 또한 INSANELY, INSANELY, INSANELY 큰 숫자의 작고 작은 확률을 가지기 시작합니다 ...
  3. 이것은 직관적 인 설명입니다. 시안은 더 공식적인 파생물을 가지고 있습니다. 그의 결과 는 가 커짐에 따라 수천 번의 관측으로도 평균보다 더 이상 관측치를 그릴 가능성이 거의 없음을 의미합니다. . "로또 당첨"이라는 언어는 인 이벤트를 말합니다 . P(X2>E[X2])=1Φ(σ)σX2>E[X2]여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.