기준선 샘플과 치료 샘플의 두 가지 데이터 샘플이 있습니다.
가설은 처리 샘플이 기준 샘플보다 평균이 높다는 것입니다.
두 샘플 모두 모양이 지수입니다. 데이터가 다소 크기 때문에 테스트를 실행할 때 각 샘플의 평균 및 요소 수만 있습니다.
그 가설을 어떻게 테스트 할 수 있습니까? 나는 그것이 매우 쉽다고 생각하고 F-Test 사용에 대한 몇 가지 참조를 보았지만 매개 변수가 어떻게 매핑되는지 잘 모르겠습니다.
기준선 샘플과 치료 샘플의 두 가지 데이터 샘플이 있습니다.
가설은 처리 샘플이 기준 샘플보다 평균이 높다는 것입니다.
두 샘플 모두 모양이 지수입니다. 데이터가 다소 크기 때문에 테스트를 실행할 때 각 샘플의 평균 및 요소 수만 있습니다.
그 가설을 어떻게 테스트 할 수 있습니까? 나는 그것이 매우 쉽다고 생각하고 F-Test 사용에 대한 몇 가지 참조를 보았지만 매개 변수가 어떻게 매핑되는지 잘 모르겠습니다.
답변:
평균 모수가 우도 비 검정 (LR 검정)과 동일하지 않은 대안에 대해 평균 모수의 동등성을 검정 할 수 있습니다. 그러나 평균 매개 변수가 다르고 분포가 지수이면 위치 이동이 아닌 규모 이동입니다.
단측 테스트의 경우 (단, 꼬리가 두 개인 경우에만 무증상) LR 테스트는 다음과 동일하다고 생각합니다 (단, 실제로는 단측 LR 테스트와 동일 함을 보여줍니다). LR 통계가 에서 단조롭다는 것을 보여 주어야 할 경우 )
하자 우리가 매개 변수화 말하는 PDF 것으로 제 지수에서 제 관찰 및 갖는 것으로 2 샘플에서 관찰 번째 PDF (관측 및 매개 변수에 대한 명백한 영역을 넘어서).
(여기서는 요율 형식이 아닌 평균 형식으로 작업하고 있으며 계산 결과에는 영향을 미치지 않습니다.)1 / μ x exp ( − x i / μ x ) j 1 / μ y exp ( − y j / μ y )
분포 때문에 감마의 특별한 경우이다 의 합계의 분포 의이 분배 ; 마찬가지로 의 합에 대해 는 입니다. Γ ( 1 , μ x ) X S x Γ ( n x , μ x ) Y S y Γ ( n y , μ y )
감마 분포와 카이 제곱 분포의 관계로 인해 는 분포되어 있습니다. 자유도에 대한 두 카이-제곱의 비율은 F입니다. 따라서 비율 입니다.χ 2 2 n x μ y
평균 평등에 대한 귀무 가설 하에서 이고 양면 대안 하에서 값은 의 값보다 작거나 큰 경향이 있습니다. 양측 테스트가 필요합니다.
대수에서 간단한 실수를하지 않았는지 확인하기위한 시뮬레이션 :
여기 에 동일한 평균을 갖는 지수 분포에서 30, 20 의 1000 샘플을 시뮬레이션 하고 위의 평균 비율 통계를 계산했습니다.Y
아래는 결과 분포의 히스토그램과 null 아래에서 계산 한 분포를 보여주는 곡선입니다 .
양측 p- 값의 계산에 대한 논의와 함께 예 :
계산을 설명하기 위해 지수 분포에서 나온 두 개의 작은 표본이 있습니다. X- 표본은 평균이 10 인 모집단의 관측치가 14 개이고 Y- 표본이 평균이 15 인 모집단의 관측치가 17 개 있습니다.
x: 12.173 3.148 33.873 0.160 3.054 11.579 13.491 7.048 48.836
16.478 3.323 3.520 7.113 5.358
y: 7.635 1.508 29.987 13.636 8.709 13.132 12.141 5.280 23.447
18.687 13.055 47.747 0.334 7.745 26.287 34.390 9.596
표본 평균은 각각 12.082와 16.077입니다. 평균의 비율은 0.7515입니다
왼쪽의 영역은 아래쪽 꼬리에 있기 때문에 간단합니다 (R의 계산기).
> pf(r,28,34)
[1] 0.2210767
다른 꼬리에 대한 확률이 필요합니다. 분포가 반대로 대칭이라면, 이것을하는 것이 간단 할 것입니다.
분산 비율 F- 검정 (비슷하게 두 꼬리)의 비율을 갖는 일반적인 규칙은 단순히 꼬리 꼬리 p- 값을 두 배로 늘리는 것입니다 (효과적으로 여기에서 진행 되는 것 ; 예를 들어 R에서 수행되는 것). ); 이 경우 p- 값은 0.44입니다.
그러나 공식적인 거부 규칙을 사용하여 각 꼬리 에 의 영역을 넣으면 여기에 설명 된대로 중요한 값을 얻을 수 있습니다 . 그러면 p- 값은 거부로 이어지는 가장 큰 입니다. 이는 위의 꼬리 꼬리 p- 값을 다른 꼬리 꼬리 꼬리 p- 값에 교환 된 자유도에 대해 위 꼬리 p- 값을 더하는 것과 같습니다. 위의 예에서 p- 값은 0.43입니다.α
@Glen_b의 답변에 대한 부록으로, 가능성 비율은 당신이 다시 정렬 할 수 있습니다 여기서 . 의 단일 최소값이 있으므로 F- 검정은 실제로 동일한 분포의 귀무 가설에 대한 단측 대안에 대한 우도 비율 검정입니다. nx로그( n x
양면 대안에 적합한 우도 비 검정을 수행하기 위해 여전히 F- 분포를 사용할 수 있습니다. 우도 비율이 관측 된 비율 과 같을 때 표본 평균 의 다른 비율을 찾아야합니다. 그런 다음 . 이 예의 경우 및 & 이므로 전체 p- 값은 (카이-제곱 근사법으로 얻은 것과 거의 비슷 함). 로그 우도 비율의 두 배인 ).
그러나 단측 p- 값을 두 배로 늘리는 것은 양측 p- 값을 얻는 가장 일반적인 방법 일 수 있습니다. 이는 표본 확률 비 의 값을 찾는 것과 같습니다 . 꼬리 확률 은 와 동일하며 를 찾습니다 . 그렇게 설명하면 꼬리 확률이 테스트 통계의 극치를 정의하도록 말 앞에 카트를 놓는 것처럼 보일 수 있지만 여러 비교를 통해 두 개의 단측 테스트 (각각 LRT)로 적용되는 것으로 정당화 될 수 있습니다 수정 — & 사람들은 일반적으로 또는 잠 ( R > R E T P ) 잠 ( R < R O 나 S ) 잠 ( R > R E T P ) μ X > μ Y μ X < μ Y μ X > μ Y μ X < μ 와이 또는 . 또한 소란이 적으며 샘플 크기가 매우 작더라도 양측 LRT와 거의 동일한 대답을 제공합니다.
R 코드는 다음과 같습니다.
x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
16.478, 3.323, 3.520, 7.113, 5.358)
y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447,
18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)
# observed ratio of sample means
r.obs <- mean(x)/mean(y)
# sample sizes
n.x <- length(x)
n.y <- length(y)
# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}
# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs
# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo
# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi
#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)
# overall p.value
p.value <- p.lo + p.hi
#approximate p.value
1-pchisq(2*llr.obs, 1)