여러 접근법을 비교하는 것은 타당하지만, 우리의 욕구 / 믿음을 선호하는 접근법을 선택한다는 목표는 아닙니다.
귀하의 질문에 대한 나의 대답은 다음과 같습니다. 두 분포가 서로 다른 방법을 사용하는 동안 겹치는 것이 가능할 수도 있습니다.
나는 일반적인 방법을 비교하기 위해 두 가지 접근법을 사용하여 이것을 설명 할 것이다 .
1. 테스트t
과 에서 크기가 두 개의 시뮬레이션 된 샘플을 고려 하면 값은 귀하의 경우와 같이 대략 (아래 R 코드 참조).N ( 10 , 1 ) N ( 12 , 1 ) t 1070N(10,1)N(12,1)t10
rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)
set.seed(77)
# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")
# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)
# t test
t.test(dat1,dat2)
그러나 밀도는 상당히 겹칩니다. 그러나 평균에 대한 가설을 테스트한다는 점을 기억하십시오.이 경우 명확하게 다르지만 값으로 인해 밀도가 겹칩니다.σ
2. 프로필 가능성μ
프로파일 가능성과 가능성에 대한 정의는 1 과 2 를 참조하십시오 .
이 경우, 크기가 표본의 표본 확률 및 표본 평균 는 간단히 .N ˉ X R P ( μ ) = EXP [ - N ( ˉ X - μ ) 2 ]μnx¯Rp(μ)=exp[−n(x¯−μ)2]
시뮬레이션 된 데이터의 경우 다음과 같이 R로 계산할 수 있습니다.
# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}
Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}
vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)
# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")
보다시피, 과 의 우도 구간은 합리적인 수준으로 겹치지 않습니다.μ 2μ1μ2
3. Jeffreys 이전을 사용한 후부μ
이전 의 Jeffreys를 고려하십시오.(μ,σ)
π(μ,σ)∝1σ2
각 데이터 세트에 대한 의 후부는 다음과 같이 계산할 수 있습니다.μ
# Posterior of mu
library(mcmc)
lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}
lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}
NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")
다시 말하지만, 수단에 대한 신뢰 구간은 합리적인 수준으로 겹치지 않습니다.
결론적으로, 분포가 겹치더라도 이러한 모든 접근 방식이 중요한 차이 (주된 관심사)를 나타내는 방법을 알 수 있습니다.
⋆ 다른 비교 접근법
밀도의 중첩에 대한 귀하의 우려로 판단하면, 또 다른 관심의 대상은 일 수 있습니다. 이는 첫 번째 임의 변수가 두 번째 변수보다 작을 확률입니다. 이 수량은 이 답변 에서와 같이 비모수 적으로 추정 할 수 있습니다 . 여기에는 배포 가정이 없습니다. 시뮬레이트 된 데이터의 경우,이 추정값은 이며,이 의미에서 일부 중복이 표시되는 반면 평균은 크게 다릅니다. 아래 표시된 R 코드를 살펴보십시오.0.8823825P(X<Y)0.8823825
# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}
# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
}
KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
}
# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))
}
nonpest(dat1,dat2)
이게 도움이 되길 바란다.