두꺼운 꼬리 분산 프로세스가 크게 개선되었는지 확인

12

프로세스가 변경에 의해 개선되었는지 확인하기 위해 변경 전후 프로세스의 처리 시간을 관찰합니다. 처리 시간이 단축되면 프로세스가 개선되었습니다. 처리 시간의 분포는 굵은 꼬리이므로 평균을 기준으로 비교하는 것은 합리적이지 않습니다. 대신 변경 후 더 낮은 처리 시간을 관찰 할 확률이 50 %를 크게 초과하는지 알고 싶습니다.

하자 변경 후의 처리 시간에 대한 랜덤 변수 일 하나 전의. 경우 훨씬 이상 그때 프로세스 개선 말할 것이다. $X$ $Y$ $P(X < Y)$ $0.5$

이제이 관측 들 및 관찰 의 . 관측 확률 이고 $n$ $x_i$ $X$ $m$ $y_j$ $Y$ $P(X < Y)$ . $\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j}$

관측치 와 주어지면 에 대해 무엇을 말할 수 있습니까? $P(X < Y)$ $x_i$ $y_j$

sampling nonparametric

— 신자
소스

12

$\hat{p}$ $U$ $mn$ $W$ $W = U + {n(n+1)\over{2}}$ $n$ $y$ $U$ $p$

$m$ $x$ $N$ $m+n$

$W^* = \frac{W-\frac{m(N+1)}{2}}{\sqrt{\frac{mn(N+1)}{12}}} \sim \text{N}(0,1)$

출처 : Hollander and Wolfe , 비모수 통계 방법, 대략 p. 117, 그러나 아마도 대부분의 비모수 통계 책이 당신을 데려 갈 것입니다.

— 보보 맨
소스

@ Glen_b-감사합니다. 대답을 업데이트했습니다. 당신이 실수의 원인에 대해 거기에서 만든 매우 관대 한 추측!

— jbowman

13

$\theta=P(X<Y)$

$X$ $Y$

정의에 의하면

θ = P (X < Y) = \int_{- \infty}^{\infty} F_{X} (y) f_{Y} (y) d y,

$\theta=P(X<Y)=\int_{-\infty}^{\infty}F_X(y)f_Y(y)dy,$

$F_X$ $X$ $f_Y$ $Y$ $X$ $Y$ $F_X$ $f_Y$ $\theta$

\hat{θ} = \int_{- \infty}^{\infty} {\hat{F}}_{X} (y) {\hat{f}}_{Y} (y) d y .

$\hat\theta=\int_{-\infty}^{\infty}\hat F_X(y)\hat f_Y(y)dy.$

이것은 가우스 커널을 사용하여 다음 R 코드에서 구현됩니다.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

$\theta$

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

다른 종류 의 부트 스트랩 간격도 고려 될 수 있습니다.

2

흥미롭고 좋은 논문 참고 자료 (+1). 레퍼토리에 추가하겠습니다!

— jbowman

0

$X_i-Y_i$ $P(X_i-Y_i<0) = p$ $I\{X_i-Y_i<0\}$ $i=1,2,..,n$ $X$ $X_i < Y_i$ $n$ $p=P(X_i-Y_i<0)$ $X/n$

— 마이클 R. 체 르닉
소스

2

페어링의 기초는 무엇입니까, 마이클?

— whuber

OP는 "X는 변경 후 처리 시간 동안 랜덤 변수로, Y는 이전 변수로하자"라고 말했다. Xi는 개입 후이고 Yi는 이전이다.

— Michael R. Chernick 2016 년

m = n

$m=n$

X_{i}

$X_i$

Y_{j}

$Y_j$

1

네가 옳아. 위의 jbowman이 제안한 Wilcoxon과 같은 두 가지 샘플 테스트가 적합하다고 생각합니다. Mann-Whitney 양식과 테스트에서 Xis <Yjs 수를 세는 것이 흥미 롭습니다.

— Michael R. Chernick 2016 년