지수 분포에 적합한 데이터를 갖는 두 표본의 평균을 비교하는 방법


10

기준선 샘플과 치료 샘플의 두 가지 데이터 샘플이 있습니다.

가설은 처리 샘플이 기준 샘플보다 평균이 높다는 것입니다.

두 샘플 모두 모양이 지수입니다. 데이터가 다소 크기 때문에 테스트를 실행할 때 각 샘플의 평균 및 요소 수만 있습니다.

그 가설을 어떻게 테스트 할 수 있습니까? 나는 그것이 매우 쉽다고 생각하고 F-Test 사용에 대한 몇 가지 참조를 보았지만 매개 변수가 어떻게 매핑되는지 잘 모르겠습니다.


2
왜 데이터가 없습니까? 샘플이 실제로 큰 경우 비모수 적 테스트는 훌륭하게 작동하지만 요약 통계에서 테스트를 실행하려는 것처럼 들립니다. 맞습니까?
Mimshot

동일한 환자 세트의 기준치와 치료 값이 두 그룹이 독립적입니까?
Michael M

1
@ Mimshot, 데이터가 스트리밍되지만 요약 통계에서 테스트를 실행하려고하는 것이 맞습니다. 그것은 정상적인 데이터에 대한 Z 테스트와 함께 잘 작동합니다
Jonathan Dobbie

1
이러한 상황에서는 대략적인 z 테스트가 최선의 방법 일 것입니다. 그러나 통계적 중요성이 아니라 실제 치료 효과가 얼마나 큰지에 대해 더주의를 기울일 것입니다. 충분히 큰 샘플을 사용하면 작은 효과 만 적용하면 p 값이 작아집니다.
Michael M

1
@january-그의 표본 크기가 충분히 크면 CLT에 의해 정규 분포에 매우 가깝습니다. 귀무 가설 하에서 분산은 평균과 동일하므로 표본 크기가 충분히 크면 t- 검정이 제대로 작동합니다. 모든 데이터로 할 수있는만큼 좋지는 않지만 여전히 괜찮습니다. 예를 들어, 은 꽤 좋습니다. n1=n2=100
jbowman

답변:


14

평균 모수가 우도 비 검정 (LR 검정)과 동일하지 않은 대안에 대해 평균 모수의 동등성을 검정 할 수 있습니다. 그러나 평균 매개 변수가 다르고 분포가 지수이면 위치 이동이 아닌 규모 이동입니다.

단측 테스트의 경우 (단, 꼬리가 두 개인 경우에만 무증상) LR 테스트는 다음과 동일하다고 생각합니다 (단, 실제로는 단측 LR 테스트와 동일 함을 보여줍니다). LR 통계가 에서 단조롭다는 것을 보여 주어야 할 경우 )x¯/y¯

하자 우리가 매개 변수화 말하는 PDF 것으로 제 지수에서 제 관찰 및 갖는 것으로 2 샘플에서 관찰 번째 PDF (관측 및 매개 변수에 대한 명백한 영역을 넘어서). (여기서는 요율 형식이 아닌 평균 형식으로 작업하고 있으며 계산 결과에는 영향을 미치지 않습니다.)1 / μ x exp ( x i / μ x ) j 1 / μ y exp ( y j / μ y )i1/μxexp(xi/μx)j1/μyexp(yj/μy)

분포 때문에 감마의 특별한 경우이다 의 합계의 분포 의이 분배 ; 마찬가지로 의 합에 대해 는 입니다. Γ ( 1 , μ x ) X S x Γ ( n x , μ x ) Y S y Γ ( n y , μ y )XiΓ(1,μx)XSxΓ(nx,μx)YSyΓ(ny,μy)

감마 분포와 카이 제곱 분포의 관계로 인해 는 분포되어 있습니다. 자유도에 대한 두 카이-제곱의 비율은 F입니다. 따라서 비율 입니다.χ 2 2 n x μ y2/μxSxχ2nx2μyμxSx/nxSy/nyF2nx,2ny

평균 평등에 대한 귀무 가설 하에서 이고 양면 대안 하에서 값은 의 값보다 작거나 큰 경향이 있습니다. 양측 테스트가 필요합니다.x¯/y¯F2nx,2ny


대수에서 간단한 실수를하지 않았는지 확인하기위한 시뮬레이션 :

여기 에 동일한 평균을 갖는 지수 분포에서 30, 20 의 1000 샘플을 시뮬레이션 하고 위의 평균 비율 통계를 계산했습니다.YXY

아래는 결과 분포의 히스토그램과 null 아래에서 계산 한 분포를 보여주는 곡선입니다 .F

null 하에서 비율 통계의 시뮬레이션 된 예제 분포


양측 p- 값의 계산에 대한 논의와 함께 예 :

계산을 설명하기 위해 지수 분포에서 나온 두 개의 작은 표본이 있습니다. X- 표본은 평균이 10 인 모집단의 관측치가 14 개이고 Y- 표본이 평균이 15 인 모집단의 관측치가 17 개 있습니다.

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

표본 평균은 각각 12.082와 16.077입니다. 평균의 비율은 0.7515입니다

왼쪽의 영역은 아래쪽 꼬리에 있기 때문에 간단합니다 (R의 계산기).

 > pf(r,28,34) 
 [1] 0.2210767

다른 꼬리에 대한 확률이 필요합니다. 분포가 반대로 대칭이라면, 이것을하는 것이 간단 할 것입니다.

분산 비율 F- 검정 (비슷하게 두 꼬리)의 비율을 갖는 일반적인 규칙은 단순히 꼬리 꼬리 p- 값을 두 배로 늘리는 것입니다 (효과적으로 여기에서 진행 되는 것 ; 예를 들어 R에서 수행되는 것). ); 이 경우 p- 값은 0.44입니다.

그러나 공식적인 거부 규칙을 사용하여 각 꼬리 에 의 영역을 넣으면 여기에 설명 된대로 중요한 값을 얻을 수 있습니다 . 그러면 p- 값은 거부로 이어지는 가장 큰 입니다. 이는 위의 꼬리 꼬리 p- 값을 다른 꼬리 꼬리 꼬리 p- 값에 교환 된 자유도에 대해 위 꼬리 p- 값을 더하는 것과 같습니다. 위의 예에서 p- 값은 0.43입니다.αα/2α


나는 이것이 단지 두꺼운 것 같아요.하지만 0.7515는 어디에서 왔습니까?
Jonathan Dobbie

r = 평균 (x) / 평균 (y) = 0.7515-즉, "평균의 비율"
Glen_b-복지 주 모니카

알았어 0.67을 얻었지만 데이터 입력 오류 때문일 수 있습니다.
Jonathan Dobbie

1
모집단 평균과 결과 표본 평균을보다 명확하게 구분했습니다.
Glen_b-복지국 Monica

(+1) 그러나 접선이지만 마지막 단락을 이해하지 못합니다. 단측 p- 값을 두 배로 늘리면 각 꼬리에 영역이 있는 가장 큰 를 찾는 것과 어떻게 다릅니 까? 왜 자유도를 바꾸겠습니까? ααα2
Scortchi-Monica Monica 복원

3

@Glen_b의 답변에 대한 부록으로, 가능성 비율은 당신이 다시 정렬 할 수 있습니다 여기서 . 의 단일 최소값이 있으므로 F- 검정은 실제로 동일한 분포의 귀무 가설에 대한 단측 대안에 대한 우도 비율 검정입니다. nx로그( n x

nxlognxxi+nylognyyj(nx+ny)lognx+nyxi+yj
nxlog(nxny+1r)+nylog(nynx+r)+nxlognynx+ny+nylognxnx+ny
r=x¯y¯r=1

양면 대안에 적합한 우도 비 검정을 수행하기 위해 여전히 F- 분포를 사용할 수 있습니다. 우도 비율이 관측 된 비율 과 같을 때 표본 평균 의 다른 비율을 찾아야합니다. 그런 다음 . 이 예의 경우 및 & 이므로 전체 p- 값은 (카이-제곱 근사법으로 얻은 것과 거의 비슷 함). 로그 우도 비율의 두 배인 ).rELRrobsPr(R>rELR)rELR=1.3272Pr(R>rELR)=0.21420.43520.4315

여기에 이미지 설명을 입력하십시오

그러나 단측 p- 값을 두 배로 늘리는 것은 양측 p- 값을 얻는 가장 일반적인 방법 일 수 있습니다. 이는 표본 확률 비 의 값을 찾는 것과 같습니다 . 꼬리 확률 은 와 동일하며 를 찾습니다 . 그렇게 설명하면 꼬리 확률이 테스트 통계의 극치를 정의하도록 말 앞에 카트를 놓는 것처럼 보일 수 있지만 여러 비교를 통해 두 개의 단측 테스트 (각각 LRT)로 적용되는 것으로 정당화 될 수 있습니다 수정 — & 사람들은 일반적으로 또는( R > R E T P ) ( R < R O S ) ( R > R E T P ) μ X > μ Y μ X < μ Y μ X > μ Y μ X < μ 와이rETPPr(R>rETP)홍보(아르 자형<아르 자형영형에스)홍보(아르 자형>아르 자형이자형)μ엑스>μ와이μ엑스<μ와이μ엑스>μ와이 또는 . 또한 소란이 적으며 샘플 크기가 매우 작더라도 양측 LRT와 거의 동일한 대답을 제공합니다.μ엑스<μ와이

여기에 이미지 설명을 입력하십시오

R 코드는 다음과 같습니다.

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.