중앙값에 대한 신뢰 구간


40

중앙값과 다른 백분위 수에서 95 % CI를 찾아야합니다. 나는 이것에 접근하는 방법을 모른다. 저는 주로 프로그래밍 도구로 R을 사용합니다.

답변:


31

다음은 고전적인 R 데이터 세트에 대한 그림입니다.

> x       = faithful$waiting
> bootmed = apply(matrix(sample(x, rep=TRUE, 10^4*length(x)), nrow=10^4), 1, median)
> quantile(bootmed, c(.025, 0.975))
2.5% 97.5% 
 73.5    77 

중앙값에 (73.5, 77) 신뢰 구간을 제공합니다.

( 참고 : John 덕분에 수정 된 버전 . 이전에는 을 사용 하여 혼란을 초래했습니다!)103nrow


7
의심스럽게 저에게 좁아 보입니다. 의 기능을 사용하여 다음 library(boot)을 확인하십시오.> boot.ci (boot (x, function (x, i) median (x [i]), R = 1000)) Intervals : Level Normal Basic 95 % (74.42, 78.22) (75.00 , 78.49) 백분위 수 BCa 95 % (73.51, 77.00) (73.00, 77.00)
onestop

2
Xi'an ... 환영합니다. 제 생각에, 저는 항상 행렬의 원래 N 값을 설정하는 것을 선호합니다. 왜냐하면 그것은 내가 만들 수있는 다양한 부트 스트랩 크기에 걸쳐 일정하기 때문입니다. 따라서 일반적으로 ncol = length (x)라고 말했을 것입니다. 그런 식으로 오류가 발생할 가능성이 적습니다.
John

6
이것은 onestop의 답변 에서와 같이 이항 양자를 계산하는 비효율적 인 방법 입니다.
whuber

30

다른 접근 방식은 이항 분포의 Quantile을 기반으로합니다.
예 :

> x=faithful$waiting
> sort(x)[qbinom(c(.025,.975), length(x), 0.5)]
[1] 73 77

4
나는 이것의 단순함을 좋아한다 ... 결과는 부트 스트랩 방법에 가깝다.
Dominic Comtois

1
이것은 연속적인 경우 부트 스트래핑보다 훨씬 효율적이지만 한 가지 단점은 묶인 순위를 고려하지 않는다는 것입니다. 이에 대한 해결 방법을 알고 있습니까?
ali_m

15

부트 스트랩 리샘플링을 확인하십시오. 부팅 기능에 대한 R 도움말을 검색하십시오. 리샘플링을 사용하는 데이터에 따라 거의 모든 것에 대한 신뢰 구간을 추정 할 수 있습니다.


동의하다. 이것이 가장 좋은 방법입니다. 제 생각에는 생의학에 익숙하지 않습니다.
pmgjones

10
기존 부 스트랩에 문제가있는 것으로 보이므로이 PDF에서 참고 문헌을 찾을 수 있으므로 인구 분량을 추정하기 위해 평활화 된 부트 스트랩을 검토 하십시오 . 이론적 중간 값에 관심이있는 경우 R의 wilcox.test(..., conf.int=TRUE)함수 와 같이 Hodges-Lehman 추정기를 사용할 수 있습니다 .
caracal

4

그리고 다른 접근 방법이 있습니다. 하나는 연속성 보정이있는 하나의 샘플에 적용된 Wilcoxon Rank Sum 테스트를 기반으로합니다. R에서는 다음과 같이 제공 될 수 있습니다.

wilcox.test(x,conf.level=0.95,alternative="two.sided",correct=TRUE)

여기에서 논의 된 중간 값에 대한 David Olive의 CI가 있습니다.

중앙값에 대한 CI


1

qbinom 접근법을 기반으로 한 결과는 작은 샘플에는 맞지 않습니다. x에 10 개의 성분이 있다고 가정합니다. qbinom (c (.025, .975), 10, .5)는 2와 8을 제공합니다. 결과 간격은 아래쪽 꼬리의 순서 통계를 위쪽 꼬리의 순서 통계와 대칭 적으로 처리하지 않습니다. 정답은 2와 9입니다. SAS에서 proc 일 변량을 확인할 수 있습니다. 여기서 잡을 수있는 확률은 .025 이하입니다. 낮은 Quantile은 적어도 .025 또는 그 이하를 제공하기 때문에 이것을하지 않습니다. 1이어야하는 카운트가 0을 세는 2 차 통계에 맵핑되어야하므로 "off by one"이 취소되므로 맨 아래에 저장됩니다. 이 우연한 취소는 상단에 발생하지 않으므로 여기에 잘못된 답변이 표시됩니다. 코드 sort (x) [qbinom (c (.025, .975), length (x),). 5) + c (0,1)]은 거의 효과가 있으며 .5는 다른 Quantile의 신뢰 구간을 얻기 위해 다른 Quantile 값으로 대체 될 수 있지만 P [X <= a ] =. 025. 예를 들어, Higgins, Nonparametric Statisitcs를 참조하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.