경험적 분포 대안


13

하사품:

아래의 견적서 를 사용하거나 언급 한 출판 된 논문에 대한 참조를 제공하는 사람에게 전체 현상금이 수여 됩니다.F~

자극:

이 섹션은 아마도 당신에게 중요하지 않으며 나는 당신이 현상금을 얻는 데 도움이되지 않을 것이라고 생각하지만 누군가가 동기 부여에 대해 물었으므로 여기에 내가하고있는 일이 있습니다.

통계 그래프 이론 문제를 연구 중입니다. 표준 밀도 그래프 제한 객체 은 와 같은 의미에서 대칭 함수입니다 . 에 그래프 샘플링 정점하여 샘플로 간주 할 수 (단위 간격에 균일 한 값을 위해 에지의 후 확률) 및 인 . 결과 인접 행렬을 라고 합니다.W:[0,1]2[0,1]W(u,v)=W(v,u)nnUii=1,,n(i,j)W(Ui,Uj)A

우리는 를 0으로 가정 하면 밀도 로 취급 할 수 있습니다 . 우리가 추정하는 경우 f를 기반으로 에 대한 제약없이 F , 우리는 일관된 추정치를 얻을 수 없습니다. 나는 일관되게 추정에 대한 흥미로운 결과를 발견 f를 할 때 f는 가능한 기능의 제한된 세트에서 온다. 이 추정기 및 \ sum A 에서 W 를 추정 할 수 있습니다 .Wf=W/WW>0fAfffAW

불행히도, 내가 찾은 방법은 밀도가 분포에서 샘플링 할 때 일관성을 보여줍니다 . 가 구성 되는 방식 은 (원래 에서 그림을 가져 오는 것과는 대조적으로) 점 그리드를 샘플링해야합니다 . 이 stats.SE 질문에서 실제로 분포에서 직접 샘플링하는 것이 아니라 이와 같은 그리드에서 샘플 Bernoullis 만 샘플링 할 수있을 때 발생하는 1 차원 (간단한) 문제를 묻습니다.fAf

그래프 한계에 대한 참조 :

L. Lovasz와 B. Szegedy. 고밀도 그래프 시퀀스의 한계 ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos 및 K. Vesztergombi. 고밀도 그래프의 수렴 시퀀스 i : 서브 그래프 주파수, 메트릭 속성 및 테스트. ( arxiv ).

표기법:

구간 에 대해 긍정적 인지지를 갖는 cdf 및 pdf 를 사용한 연속 분포를 고려하십시오 . 가정하자 더 pointmass가없는 사방 미분 가능하며, 또한 의 supremum 인 구간의 . 하자 확률 변수의 의미 분포에서 샘플링 . 는 iid 균일 랜덤 변수입니다 .Ff[0,1]fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

문제 설정 :

종종 을 분포 갖는 임의의 변수로 만들고 일반적인 경험적 분포 함수 와 함께 여기서 는 표시기 함수입니다. 이 경험적 분포 는 그 자체가 무작위입니다 ( 는 고정되어 있음).X1,,XnF

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

불행히도, 나는 에서 직접 샘플을 그릴 수 없습니다 . 그러나 는 에서만 긍정적 인 지원을 하고 있으며 임의의 변수 생성 할 수 있습니다. 여기서 는 성공 확률이있는 Bernoulli 분포를 갖는 임의의 변수입니다 여기서 와 는 위에 정의되어 있습니다. 따라서 입니다. 이 값 에서 를 추정 할 수있는 한 가지 확실한 방법은 여기서Ff[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi
F~n(t)=1i=1nYii=1tnYi
은 천장 함수 (가장 가까운 정수로 반올림)이며 경우 다시 그립니다 ( 나누지 않고 유니버스 축소) . 참고 또한 사람 랜덤 변수 랜덤 변수이다.i=1nYi=0F~(t)Yi

질문 :

가장 쉬운 것부터 가장 어려운 것까지.

  1. 이 (또는 이와 유사한 것)에 이름 이 있는지 아는 사람이 있습니까? 속성 중 일부를 볼 수있는 참조를 제공 할 수 있습니까?F~n

  2. 으로 입니다 의 일관된 추정 (당신은 그것을 증명할 수)?nF~n(t)F(t)

  3. 제한의 분포 란 로서 ?F~n(t)n

  4. 이상적으로는 의 함수로 다음을 묶고 싶습니다 예 : .하지만 진실이 무엇인지 모르겠습니다. 의미 확률에 큰 OnOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

몇 가지 아이디어와 메모 :

  1. 이것은 그리드 기반 계층화를 사용한 수용 거부 샘플링 과 매우 유사 합니다. 제안을 거부하면 다른 샘플을 작성하지 않기 때문에 그렇지 않습니다.

  2. 이 이 바이어스되어 있다고 확신합니다 . 대체 는 편견이 없지만 불쾌한 속성이 있습니다. 입니다.F~n

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. 플러그인 견적 도구 로 사용하고 싶습니다 . 나는 이것이 유용한 정보라고 생각하지 않지만 왜 그런지 알 수 있습니다.F~n

R의 예

경험적 분포를 과 비교하려는 경우 일부 R 코드가 있습니다 . 들여 쓰기 중 일부가 잘못되어 죄송합니다. 문제를 해결하는 방법을 모르겠습니다.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

위의 데이터에서 출력

EDITS :

편집 1-

@whuber의 의견을 해결하기 위해 이것을 편집했습니다.

편집 2-

R 코드를 추가하고 조금 더 정리했습니다. 가독성을 위해 표기법을 약간 변경했지만 기본적으로 동일합니다. 허용되는 즉시 현상금을 지급 할 계획이므로 추가 설명이 필요하면 알려주십시오.

편집 3-

나는 @ 추기경의 발언을 언급했다고 생각합니다. 전체 변형에서 오타를 수정했습니다. 현상금을 추가하고 있습니다.

편집 4-

@cardinal에 대한 "동기 부여"섹션을 추가했습니다.


1
정의되지 않은 객체를 언급하고 특이한 표기법을 사용하는 순간 귀하의 질문이 모호해지기 시작했습니다. 예를 들어, 는 초기에 나타나지만 와 명백한 관련이 없으며 , "이산 분포가 아닌"것으로 생각한다는 사실을 훨씬 더 읽음으로써 만 어떤 종류의 물체입니까? 결정적으로, " 는 무엇을 의미합니까?" "은 일반적으로 최고를 의미 하지만 아마도 분포의 필수적인 지원과 관련이 있을까요? 질문.fFsupzf(z)sup
whuber

1
귀하의 의견에 감사드립니다 @ whuber. 수정 된 질문이 여전히 혼란 스러우면 알려주십시오.
user1448319

1
아하! 그것이 이 고정되어 있지 않고 당신이 점증에 관심이 있다는 것을 처음으로 보았습니다 . 을 선택할 수있는 유연성이 있다면 , 고정 그리드 제한하지 않고 샘플 포인트의 적응 형 선택과 같은 다양한 가능성을 열 수 없습니까? 또한 가 연속적 (즉, 가 절대적으로 연속적 임) 과 같은 명시되지 않은 가정을하고 있음이 분명합니다 . 이 분석에 도움이 될 수 있는 기본 분포 에 대해 무엇을 더 가정 할 수 있습니까? nn{i/n}fFF
whuber

2
다른 몇 가지 질문 / 설명 : 수렴 분석의 목적으로 삼각형 배열 , 을 실제로 고려하고 있다는 구성 방법을 암시 적으로 나타내는 것 같습니다 . 구성 방법에서 , 조건부 성공 확률 여기서 는 균일 한 랜덤 변수 임)로 Bernoulli 랜덤 변수를 (쉽게) 샘플링 할 수 있어야 합니다. 그게 사실입니까? (질문에 대한 문맥이 조금 더 많으면 이러한 많은 질문이 해결 될 것입니다.) 건배. piYi,ni=1,,npif(U)/cU
추기경

2
이 질문은 너무 많이 개선되어서 이전에 의견을 보았을 때까지 인식하지 못했습니다. 이제는 정말 흥미롭고 훨씬 더 잘 작성된 질문입니다.
Glen_b-복지 주 모니카

답변:


1

이 참조 동안

편집 : 매우 유사한 통계 "불완전한 관측으로부터 비모수 추정" 에 대한 참조 추가 EL Kaplan 및 Paul Meier, Journal of the American Statistical Association, Vol. 53, 282 호 (1958 년 6 월), 457-481 페이지

의 ECDF와 같은 추정치가 아닙니다 . 생존 분석에 사용 된 Kaplan-Meier 추정치 (일명, 제품 한계 추정기)와 논리적으로 동일하다고 생각합니다. .[0,1][0,)

커널 스무딩을 통해 배포가 합리적으로 잘 이루어지면 (예를 들어, Wikipedia의 Khmaladze 변환 참조) 합리적으로 분배를 추정하면 편향을 추정 할 수 있습니다 .

그래프의 이변 량 사례에서 사소한 대칭 제약 조건을 가진 에서 를 추정하는 문제 는 Jean-David Fermanian, Dragan Radulovic 및 Marten Wegkamp (2004)의 접근법과 비슷합니다. 경험적 copula의 약한 수렴 프로세스 , Bernoulli , vol. 10 번 @cardinal이 "다변량 델타 방법"을 표시 한 것처럼 5, 847–860.f=W/WA


0

이것은 위의 2 번과 3 번 문제에 대한 답입니다. 그래도 여전히 질문 1에서 참조를 원합니다 .

때 아직 고려하지 않았습니다 .Yi=0

고려 다음 아래 첨자가 미분을 나타내는 . 리콜 . 하자 따라서 및 입니다. 또한, g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
의 독립성에 의해 유의하십시오 . Cov(R,S)=0Yi

이제 테일러 확장을 사용하여

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
여기서 특히
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

이것에 문제가 있으면 의견을 말하십시오.

EDITS :

편집 1-

에서 오타가 수정되었습니다 . 질문 4에 대한 의견에 대한 귀하의 제안에 감사드립니다.VF(t)

편집 2-

많은 오타가 수정되었습니다. 나는 여러 곳에 가 있어야 했던 을 가졌 습니다. 대한 의 응답을 여전히 해결해야합니다 .c1cYi=0


1
친애하는 @user : 이것은 올바른 궤도에 있습니다. 몇 가지 제안이 있습니다. ( 1 ) )의 평균은 적어도 일 때 발생하는 일을 지정하기 전까지는 존재하지 않으므로 답의 분석을 엄격히 말하면 정확하지 않습니다. 동작을 0으로 정의하면 독립 구조가 깨지지 만 모두 손실되지는 않습니다. ( 2 ) 본질적으로, 당신이하고있는 일은 다변량 델타 방법을 적용하는 것입니다. 이것은 의 평균이 필요 하지 경로를 사용하면 더 깨끗하고 정확합니다. F~n(t)iYi=0F~n(t)
추기경

2
( 3 ) 목록의 항목 4는 다음과 같이 처리됩니다. 참고오른쪽의 첫 번째 항인 은그래서 분명히 . 당신은 중기만을 다루기로 남겨졌지만, Markov의 불평등과 Jensen의 불평등에 쉽게 굴복하고 입니다.
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
추기경

친애하는 @user : 경우를 고려할 필요가없는 것에 대해 귀하의 의견에 더 많은 설명을하는 것이 도움이 될 것 입니다. 설명하는 것은 조건부 샘플링입니다. 의 조건 은 독립적 이지 않거나 조건부 독립적이므로 답의 (암시 적) 분석은 유지되지 않습니다. 이것을 보기 위해 경우를 보는 것이 도움이 될 수 있습니다 ( 테이블을 그리십시오 ). iYi=0Yi{iYi>0}n=22×2
추기경

추가로,따라서이 정의를 단순화 할 수 있습니다. supCC|F~F|=01|F~F|
추기경
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.