하사품:
아래의 견적서 를 사용하거나 언급 한 출판 된 논문에 대한 참조를 제공하는 사람에게 전체 현상금이 수여 됩니다.
자극:
이 섹션은 아마도 당신에게 중요하지 않으며 나는 당신이 현상금을 얻는 데 도움이되지 않을 것이라고 생각하지만 누군가가 동기 부여에 대해 물었으므로 여기에 내가하고있는 일이 있습니다.
통계 그래프 이론 문제를 연구 중입니다. 표준 밀도 그래프 제한 객체 은 와 같은 의미에서 대칭 함수입니다 . 에 그래프 샘플링 정점하여 샘플로 간주 할 수 (단위 간격에 균일 한 값을 위해 에지의 후 확률) 및 인 . 결과 인접 행렬을 라고 합니다.
우리는 를 0으로 가정 하면 밀도 로 취급 할 수 있습니다 . 우리가 추정하는 경우 f를 기반으로 에 대한 제약없이 F , 우리는 일관된 추정치를 얻을 수 없습니다. 나는 일관되게 추정에 대한 흥미로운 결과를 발견 f를 할 때 f는 가능한 기능의 제한된 세트에서 온다. 이 추정기 및 \ sum A 에서 W 를 추정 할 수 있습니다 .
불행히도, 내가 찾은 방법은 밀도가 분포에서 샘플링 할 때 일관성을 보여줍니다 . 가 구성 되는 방식 은 (원래 에서 그림을 가져 오는 것과는 대조적으로) 점 그리드를 샘플링해야합니다 . 이 stats.SE 질문에서 실제로 분포에서 직접 샘플링하는 것이 아니라 이와 같은 그리드에서 샘플 Bernoullis 만 샘플링 할 수있을 때 발생하는 1 차원 (간단한) 문제를 묻습니다.
그래프 한계에 대한 참조 :
L. Lovasz와 B. Szegedy. 고밀도 그래프 시퀀스의 한계 ( arxiv ).
C. Borgs, J. Chayes, L. Lovasz, V. Sos 및 K. Vesztergombi. 고밀도 그래프의 수렴 시퀀스 i : 서브 그래프 주파수, 메트릭 속성 및 테스트. ( arxiv ).
표기법:
구간 에 대해 긍정적 인지지를 갖는 cdf 및 pdf 를 사용한 연속 분포를 고려하십시오 . 가정하자 더 pointmass가없는 사방 미분 가능하며, 또한 의 supremum 인 구간의 . 하자 확률 변수의 의미 분포에서 샘플링 . 는 iid 균일 랜덤 변수입니다 .
문제 설정 :
종종 을 분포 갖는 임의의 변수로 만들고 일반적인 경험적 분포 함수 와 함께 여기서 는 표시기 함수입니다. 이 경험적 분포 는 그 자체가 무작위입니다 ( 는 고정되어 있음).
불행히도, 나는 에서 직접 샘플을 그릴 수 없습니다 . 그러나 는 에서만 긍정적 인 지원을 하고 있으며 임의의 변수 생성 할 수 있습니다. 여기서 는 성공 확률이있는 Bernoulli 분포를 갖는 임의의 변수입니다 여기서 와 는 위에 정의되어 있습니다. 따라서 입니다. 이 값 에서 를 추정 할 수있는 한 가지 확실한 방법은 여기서
질문 :
가장 쉬운 것부터 가장 어려운 것까지.
이 (또는 이와 유사한 것)에 이름 이 있는지 아는 사람이 있습니까? 속성 중 일부를 볼 수있는 참조를 제공 할 수 있습니까?
으로 입니다 의 일관된 추정 (당신은 그것을 증명할 수)?
제한의 분포 란 로서 ?
이상적으로는 의 함수로 다음을 묶고 싶습니다 예 : .하지만 진실이 무엇인지 모르겠습니다. 의미 확률에 큰 O
몇 가지 아이디어와 메모 :
이것은 그리드 기반 계층화를 사용한 수용 거부 샘플링 과 매우 유사 합니다. 제안을 거부하면 다른 샘플을 작성하지 않기 때문에 그렇지 않습니다.
이 이 바이어스되어 있다고 확신합니다 . 대체 는 편견이 없지만 불쾌한 속성이 있습니다. 입니다.
을 플러그인 견적 도구 로 사용하고 싶습니다 . 나는 이것이 유용한 정보라고 생각하지 않지만 왜 그런지 알 수 있습니다.
R의 예
경험적 분포를 과 비교하려는 경우 일부 R 코드가 있습니다 . 들여 쓰기 중 일부가 잘못되어 죄송합니다. 문제를 해결하는 방법을 모르겠습니다.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
EDITS :
편집 1-
@whuber의 의견을 해결하기 위해 이것을 편집했습니다.
편집 2-
R 코드를 추가하고 조금 더 정리했습니다. 가독성을 위해 표기법을 약간 변경했지만 기본적으로 동일합니다. 허용되는 즉시 현상금을 지급 할 계획이므로 추가 설명이 필요하면 알려주십시오.
편집 3-
나는 @ 추기경의 발언을 언급했다고 생각합니다. 전체 변형에서 오타를 수정했습니다. 현상금을 추가하고 있습니다.
편집 4-
@cardinal에 대한 "동기 부여"섹션을 추가했습니다.