두 표본의 평균이 크게 다르지만 차이가 너무 작아서 중요하지 않은 경우 수행 할 작업


13

두 개의 샘플이 있습니다 ( 두 경우 모두 ). 평균적으로 풀링 된 표준의 두 배가 다릅니다. dev. 결과 값은 약 10입니다. 평균이 같지 않다는 것을 결정적으로 보여 주 었음을 아는 것이 좋지만, 이것은 큰 n에 의해 구동되는 것 같습니다. 데이터의 히스토그램을 보면 작은 p- 값과 같은 것이 실제로 데이터를 대표한다고 생각하지 않으며 정직하게 말하면 실제로 인용하는 것이 기분이 좋지 않습니다. 아마 잘못된 질문입니다. 내가 생각하는 것은 : 네, 방법은 다르지만 분포가 현저하게 겹치므로 실제로 중요합니까?Tn70T

베이지안 테스트가 유용한 곳입니까? 그렇다면 시작하기에 좋은 곳이라면 약간의 인터넷 검색이 유용한 정보를 얻지 못했지만 올바른 질문을하지 않아도됩니다. 이것이 잘못된 것이라면 누구에게도 제안이 있습니까? 아니면 이것은 정량 분석과 반대로 단순히 논의의 요점입니까?


나는 당신의 첫 번째 진술이 잘못되었다는 다른 모든 대답에 덧붙이고 싶습니다 : 당신은 수단이 다르다는 것을 결정적으로 보여주지 않았습니다 . t- 검정의 p- 값은 데이터를 관찰 할 가능성이 있거나 그보다 더 극단적 인 값을 관측 할 확률이 귀무 가설 ( 예 : t- 검정의 경우 이 주어질 가능성이 있는지 여부를 알려 줍니다 ( 예 : : { "평균이 같다"}) 는 의미가 실제로 다르다는 것을 의미하지는 않는다 . 또한 풀링 된 분산 t- 검정을 수행하기 전에 분산의 동등성을 테스트하기 위해 F- 검정을 수행했다고 가정합니다. H 0μA=μBH0
Néstor

귀하의 질문은 중요한 차이점을 제시하기 때문에 매우 좋습니다. 통계 결과에서 일부 별을 찾고 자신이 완료했다고 선언하기보다는 실제로 데이터에 대해 생각하고 있음을 보여줍니다. 여러 답변에서 지적했듯이 통계적 유의성의미있는 것과 다릅니다 . 통계적으로 유의미한 평균 차이 0.01이 필드 A에서는 의미가 있지만 필드 B에서는 의미가 작다는 것을 통계 절차에서 어떻게 알 수 있습니까?
Wayne

공평하게도, 언어는 발견되지 않았지만 p- 값이 내가 얻는 것과 같을 때 나는 단어에 대해 너무 까다로워하지 않는 경향이 있습니다. 나는 F 테스트 (및 QQ 플롯)를했습니다. 그들이 말하는 것처럼 재즈에 충분히 가깝습니다.
Bowler

1
FWIW, 당신의 수단이 2 SD의 차이라면, 그것은 나에게 큰 차이처럼 보입니다. 물론 그것은 당신의 분야에 달려 있지만, 사람들이 육안으로 쉽게 알아 차릴 수있는 차이입니다 (예를 들어, 20-29 세의 미국 남성과 여성의 평균 키는 약 1.5 SD만큼 다릅니다). 전혀 중복되지 않으므로 실제로 데이터 분석을 수행 할 필요가 없습니다. 분포가 겹치지 않으면 최소 6, 최소 w / , 는 <.05가됩니다. PNp
gung-복직 모니카

나는 그것이 완전히 밝혀지지 않았지만 그 차이가 크다는 것에 동의합니다.
Bowler

답변:


12

하자 나타낸다 첫 번째 인구의 평균 나타낸다 두 번째 인구의 평균. 인지 테스트하기 위해 2- 표본 사용한 것 같습니다 . 중요한 결과는 임을 암시 하지만 응용 프로그램의 경우 그 차이는 작은 것 같습니다.μ 2 t μ 1 = μ 2 μ 1μ 2μ1μ2tμ1=μ2μ1μ2

당신이 만난 것은 통계적으로 중요한 것은 종종 응용 프로그램에 중요한 것 이외의 것이 될 수 있다는 사실입니다 . 차이는 통계적으로 유의할 수 있지만 여전히 의미 가 없을 수 있습니다 .

베이지안 테스트는이 문제를 해결하지 못합니다. 여전히 차이가 있다고 결론을 내릴 수 있습니다.

그러나 탈출구가있을 수 있습니다. 예를 들어, 단측 가설의 경우 이 보다 큰 단위 이면 응용 프로그램에 중요 할만큼 큰 의미있는 차이가된다고 수 있습니다. Δ μ 2μ1Δμ2

이 경우 대신 여부를 테스트합니다 . 이 경우 통계량 (동일 분산 가정)은 여기서 는 합동 표준 편차 추정치입니다. 귀무 가설에 따라,이 통계는 -distributed와 자유도.μ 1μ 2 = 0 t T = ˉ x 1ˉ x 2Δμ1μ2Δμ1μ2=0t sptn1+n22

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

이 테스트를 수행하는 쉬운 방법은 첫 번째 모집단에서 관측치에서 를 빼고 정규 일방적 인 2- 표본 수행하는 것입니다.tΔt


8

여러 접근법을 비교하는 것은 타당하지만, 우리의 욕구 / 믿음을 선호하는 접근법을 선택한다는 목표는 아닙니다.

귀하의 질문에 대한 나의 대답은 다음과 같습니다. 두 분포가 서로 다른 방법을 사용하는 동안 겹치는 것이 가능할 수도 있습니다.

나는 일반적인 방법을 비교하기 위해 두 가지 접근법을 사용하여 이것을 설명 할 것이다 .

1. 테스트t

과 에서 크기가 두 개의 시뮬레이션 된 샘플을 고려 하면 값은 귀하의 경우와 같이 대략 (아래 R 코드 참조).N ( 10 , 1 ) N ( 12 , 1 ) t 1070N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

그러나 밀도는 상당히 겹칩니다. 그러나 평균에 대한 가설을 테스트한다는 점을 기억하십시오.이 경우 명확하게 다르지만 값으로 인해 밀도가 겹칩니다.σ

여기에 이미지 설명을 입력하십시오

2. 프로필 가능성μ

프로파일 가능성과 가능성에 대한 정의는 12 를 참조하십시오 .

이 경우, 크기가 표본의 표본 확률 및 표본 평균 는 간단히 .N ˉ X R P ( μ ) = EXP [ - N ( ˉ X - μ ) 2 ]μnx¯Rp(μ)=exp[n(x¯μ)2]

시뮬레이션 된 데이터의 경우 다음과 같이 R로 계산할 수 있습니다.

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

보다시피, 과 의 우도 구간은 합리적인 수준으로 겹치지 않습니다.μ 2μ1μ2

3. Jeffreys 이전을 사용한 후부μ

이전Jeffreys를 고려하십시오.(μ,σ)

π(μ,σ)1σ2

각 데이터 세트에 대한 의 후부는 다음과 같이 계산할 수 있습니다.μ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

다시 말하지만, 수단에 대한 신뢰 구간은 합리적인 수준으로 겹치지 않습니다.

결론적으로, 분포가 겹치더라도 이러한 모든 접근 방식이 중요한 차이 (주된 관심사)를 나타내는 방법을 알 수 있습니다.

다른 비교 접근법

밀도의 중첩에 대한 귀하의 우려로 판단하면, 또 다른 관심의 대상은 일 수 있습니다. 이는 첫 번째 임의 변수가 두 번째 변수보다 작을 확률입니다. 이 수량은 이 답변 에서와 같이 비모수 적으로 추정 할 수 있습니다 . 여기에는 배포 가정이 없습니다. 시뮬레이트 된 데이터의 경우,이 추정값은 이며,이 의미에서 일부 중복이 표시되는 반면 평균은 크게 다릅니다. 아래 표시된 R 코드를 살펴보십시오.0.8823825P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

이게 도움이 되길 바란다.


2
(+1) 베이지안 방법에 대한 유용한 답변에 감사드립니다. 또한 P (X <Y) 링크는 동일한 분석에서 궁금했던 다른 문제에 답변합니다.
Bowler

7

올바른 질문에 대답

자, 수단이 다르지만 분포가 상당히 겹치므로 실제로 중요합니까?

그룹 평균이 다른지 묻는 테스트는 올바르게 작동 할 때 평균이 다른지 여부를 알려줍니다. 그것은 데이터 자체의 분포가 다르다는 것을 말하지 않을 것입니다. 왜냐하면 그것이 다른 질문이기 때문입니다. 질문은 확실히 수단이 다른지의 여부에 따라 다르지만, 불완전하게 분산, 왜곡 및 첨도로 요약 될 수있는 다른 많은 것들에 달려 있습니다.

평균의 위치에 대한 확실성은 추정해야하는 데이터의 양에 따라 달라 지므로 더 많은 데이터를 가짐으로써 거의 겹치는 분포에서 평균 차이를 발견 할 수 있습니다. 하지만 당신은 궁금해

작은 p- 값과 같은 것은 실제로 데이터를 나타냅니다

실제로 그것은 직접적이지는 않습니다. 그리고 이것은 의도적으로 설계된 것입니다. 데이터의 특정 샘플 통계 쌍 (데이터 자체가 아님)이 다를 수 있다는 확신을 나타내는 것은 대략적인 것입니다.

단순히 히스토그램을 표시하고 그 순간을 테스트하는 것보다 공식적인 방식으로 데이터 자체를 나타내려면 밀도 플롯 쌍이 도움이 될 수 있습니다. 오히려 테스트를 위해 사용하는 주장에 달려 있습니다.

베이지안 버전

이러한 모든 측면에서 베이지안 차이 '테스트'와 T- 테스트는 동일한 방식으로 수행하려고하므로 동일한 방식으로 작동합니다. 내가 베이지안 접근법을 사용 생각할 수있는 유일한 장점은 다음과 같습니다)이 각 그룹에 대해 가능한 서로 다른 차이를 허용하는 테스트를 쉽게 될 것이라고,와 b)는 가능성이 추정에 초점을 맞출 것입니다 크기 수단의 차이를 차이를 테스트하기 위해 p- 값을 찾는 것이 아닙니다. 즉, 이러한 장점은 매우 미미합니다. 예를 들어 b) 차이에 대한 신뢰 구간을 항상보고 할 수 있습니다.

위의 '테스트'위에있는 따옴표는 신중합니다. 베이지안 가설 검정을 수행하는 것이 가능할 수도 있고 사람들도 그렇게 할 수 있습니다. 그러나이 접근법의 비교 우위는 그럴듯한 데이터 모델을 구축하고 중요한 측면을 적절한 수준의 불확실성으로 전달하는 데 중점을두고 있다고 제안합니다.


3

우선 이것은 빈번한 테스트를 고정시키는 문제가 아닙니다. 문제는 평균이 정확히 같다는 귀무 가설에 있습니다. 따라서 모집단이 소량으로 평균이 다르고 표본 크기가 크면이 귀무 가설을 기각 할 확률이 매우 높습니다. 따라서 테스트의 p- 값은 매우 작습니다. 범인은 귀무 가설을 선택하는 것입니다. d> 0을 선택하고 평균이 d보다 작고 d보다 작다는 의미로 귀무 가설을 취합니다. d를 선택하여 실제 차이가 만족스럽게 커야 거부 할 수 있습니다. 당신의 문제는 사라집니다. 베이지안 검정은 정확한 평균 동등성의 귀무 가설을 주장하는 경우 문제를 해결하지 못합니다.


나는 다른 두 사람과 동시에 내 대답을 쓰고있었습니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.