신뢰 구간을 사용할 때 여러 비교 조정을 처리해야합니까?


26

쌍별 통계에 대한 사후 추론 또는 다중 회귀 와 같은 다중 비교 시나리오가 있다고 가정합니다.m합니다. 또한 신뢰 구간을 사용하여 이러한 배수의 추론을 지원한다고 가정합니다.

1. CI에 여러 비교 조정을 적용합니까? 즉, 다중 비교가 α 를 재정 의하여 FWER ( family-wise error rate ) 또는 FDR ( False Discovery Rate 신뢰 의 의미 (또는 신뢰성 1 또는 불확실성 또는 예측)를 수행하거나 추론 ... 간격을 선택하십시오) 여러 비교로 유사하게 변경됩니까? 여기에 부정적인 대답이 남아있는 질문을 약화시킬 것임을 알고 있습니다.

2. 가설 검정에서 구간 추정에 이르기까지 여러 비교 조정 절차를 간단하게 번역 했습니까? 예를 들어, 조정은 변화에 초점을 맞출 것이다 CI-level : 신뢰 구간에서 용어를 CIθ=(θ^±t(1CI-level)/2σ^θ) ?

3. CI에 대한 승압 또는 강압 제어 절차를 어떻게 다룰 것인가? 가설 검정 접근법에서 추론에 이르기까지 일부 가족 별 오류율 조정은 각각의 개별 추론에 대해 정확하게 동일한 조정이 수행된다는 점에서 '정적'입니다. 예를 들어, Bonferroni 조정은 다음에서 거부 기준을 변경하여 수행됩니다.

  • p α 인 경우 거부pα2 ~
  • p α 인 경우 거부pα2m ,

그러나 Holm-Bonferroni 스텝 업 조정은 '정적'이 아니라 다음과 같이 수행됩니다.

  • p 을 가장 작은 것부터 가장 큰 것까지 순서대로 정렬 한 다음
  • p 1 ( 1 α 인 경우 거부p1(1α2)1m+1i (여기서ip의 순서를 색인합니다)
  • 우리는 귀무 가설을 기각하지 못하고 모든 후속 귀무 가설을 자동으로 기각하지 않습니다.

CI에 대해 거부 / 거부 실패가 발생하지 않기 때문에 (보다 공식적으로 아래 참조 참조) 단계적 절차 변환 되지 않음 을 의미 합니까 (즉, 모든 FDR 방법 포함)? 나는 여기서 CI를 가설 검정으로 변환하는 방법을 묻지 않는다는 점을주의해야한다 (아래 인용 된 '시각 가설 검정'문헌의 대표자들은 그다지 중요하지 않은 질문을 받는다).

4. 1에서 괄호로 언급 한 다른 간격은 어떻습니까?


1 Gosh, 확실한 희망 이 단어를 여기에 사용함으로써 달콤하고 달콤한 베이지안 스타일을 방해하는 사람들과 곤경에 처하지 . :)


참고
Afshartous, D. 및 프레스턴, R. (2010). 종속 데이터에 대한 신뢰 구간 : 통계적으로 유의미한 비 중첩과 동일합니다. 전산 통계 및 데이터 분석 , 54 (10) : 2296–2305.

Cumming, G. (2009). 눈으로 추론 : 독립적 인 신뢰 구간의 중복을 읽는다. 의학 통계 , 28 (2) : 205–220.

Payton, ME, Greenstone, MH 및 Schenker, N. (2003). 겹치는 신뢰 구간 또는 표준 오류 구간 : 통계적 유의성에서 무엇을 의미합니까? 곤충 과학 저널 , 3 (34) : 1-6.

Tryon, WW 및 Lewis, C. (2008). Tryon (2001) 감소 계수를 수정하는 통계적 동등성을 설정하는 추론 적 신뢰 구간 방법. 심리학 적 방법 , 13 (3) : 272–277.


지금 정답을 조사 할 시간이 없으므로 의견에 대답하겠습니다.
Harvey Motulsky

[마지막 주석이 잘 렸습니다. [지금은 정답을 조사 할 시간이 없으므로, 주석으로 답변하겠습니다. 1) 예, 가설 검정에 대한 다중 비교가 의미가있는 것과 동일한 상황에서 의미가 있습니다. 2. Bonferroni, Tukey 및 Dunnet 다중 비교는 신뢰 수준이 전체 제품군에 적용되는 신뢰 구간을 만들기 위해 쉽게 조정할 수 있습니다. 3. 내가 알 수있는 한, Holm 방법에서 신뢰 구간을 만들 가능성은 없습니다. 4. 나는 단서가 없다!
Harvey Motulsky

2
pα

답변:


9

슬프게도 충분한 관심을 기울이지 않은 훌륭한 주제.

여러 모수와 신뢰 구간을 논의 할 때 동시 추론과 선택 사이를 구별해야합니다. 추론을 . 참조 [2] 이 문제에 대한 훌륭한 데모를 제공합니다.

1α
선택적 신뢰 구간은 선택한 매개 변수의 서브 세트가 포함됨을 의미합니다.

이 두 개념을 결합 할 수 있습니다. 귀무 가설을 기각 한 모수에 대해서만 구간을 구성한다고 가정합니다. 선택적인 추론을 분명히 다루고 있습니다. 선택한 매개 변수의 동시 적용 범위 또는 선택된 매개 변수의 한계 적용 범위를 보장 할 수 있습니다. 전자는 FWER 통제와 FDR 통제의 후자 일 것이다.

이제 더 자세히 설명하자면 : 모든 테스트 절차에 해당 간격이있는 것은 아닙니다. FWER 절차 및 해당 간격은 [3]을 참조하십시오. 안타깝게도이 참조는 약간 구식입니다. BH FDR 제어의 간격 대응 물에 대해서는 [1] 및 [4]의 응용 프로그램 (문제에 대한 간단한 검토 포함)을 참조하십시오. 이것은 가까운 미래에 더 많은 결과를 기대할 수 있도록 신선하고 활발한 연구 분야입니다.

[1] Benjamini, Y. 및 D. Yekutieli. “선택된 매개 변수에 대한 잘못된 검색 속도로 조정 된 다중 신뢰 구간.”Journal of the American Statistical Association 100, no. 469 (2005) : 71–81.

[2] Cox, DR“복수 비교 방법에 대한 설명”Technometrics 7, no. 2 (1965) : 223–24.

[3] Hochberg, Y. 및 AC Tamhane. 다중 비교 절차. 미국 뉴욕, 뉴욕 : John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD 및 Y. Benjamini. “선택적 상관 관계; 부두가 아님.”NeuroImage 103 (2014 년 12 월) : 401–10.


1

나는 절대로여러 테스트에 대한 신뢰 구간을 조정합니다. 필자는 p- 값의 열렬한 팬이 아닙니다. 모수를 추정하는 것이 절대 사실이 아닌 가설을 검정하는 것보다 통계를 더 잘 사용한다고 믿기 때문입니다. 그러나 나는 가설 검정이 그 가치가 있다는 것을 인정한다. 예를 들어, 적어도 하나는 무증상으로, 치료가 효과가 없다면, 귀무 가설은 사실이라고 주장 할 수있는 무작위 통제 시험이다. 그러나 내가 다른 곳에서 말했듯이 [1], 일반적으로 1 가지 주요 결과가 있습니다. 그러나 빈번한 정의에서 신뢰 구간은 가설을 포함하지 않으므로 잠재적으로 관련이없는 다른 비교에 대한 조정이 필요하지 않습니다. 내가 특정 유전자와 관련된 표현형, 즉 키와 혈압을 테스트한다고 가정 해 봅시다. 나는' d는 유전자의 유무에 관계없이 키의 차이가 얼마나 큰지, 내가 얼마나 잘 평가했는지 알고 싶습니다. 나는 또한 혈압을 측정했다는 사실이 그것과 관련이 있다는 것을 알지 못합니다. 중요한 것은이 두 개가 수백 명 중 유일하게 중요한 것이라면 테스트했습니다. 그런 다음 우연히 키와 혈압을 측정했지만 수백 건의 실험을 한 예상되는 실제 실험보다 차이가 클 가능성이 높습니다. 그러나 이러한 상황에서는 간단한 조정이 효과가 없으며 조정되지 않은 추정치를 제공하는 것이 좋지만 이러한 비교를 얻는 방법에 대해서는 깨끗합니다. 또한 신뢰 구간이 겹치는 것에 대한 결과를 발표했습니다. [2] 나는 또한 혈압을 측정했다는 사실이 그것과 관련이 있다는 것을 알 수 있습니다. 중요한 것은이 두 개가 수백 명 중 유일하게 중요한 것이라면 테스트했습니다. 그런 다음 우연히 키와 혈압을 측정했지만 수백 건의 실험을 한 예상되는 실제 실험보다 차이가 클 가능성이 높습니다. 그러나 이러한 상황에서는 간단한 조정이 효과가 없으며 조정되지 않은 추정치를 제공하는 것이 좋지만 이러한 비교를 얻는 방법에 대해서는 깨끗합니다. 또한 신뢰 구간이 겹치는 것에 대한 결과를 발표했습니다. [2] 나는 또한 혈압을 측정했다는 사실이 그것과 관련이 있다는 것을 알 수 있습니다. 중요한 것은이 두 개가 수백 명 중 유일하게 중요한 것이라면 테스트했습니다. 그런 다음 우연히 키와 혈압을 측정했지만 수백 번의 실험을 한 예상되는 실제 실험보다 차이가 클 가능성이 높습니다. 그러나 이러한 상황에서는 간단한 조정이 효과가 없으며 조정되지 않은 추정치를 제공하는 것이 좋지만 이러한 비교를 얻는 방법에 대해서는 깨끗합니다. 또한 신뢰 구간이 겹치는 것에 대한 결과를 발표했습니다. [2] 키와 혈압 만 측정했지만 수백 번의 실험을 한 예상되는 실제 실험보다 큽니다. 그러나 이러한 상황에서는 간단한 조정이 효과가 없으며 조정되지 않은 추정치를 제공하는 것이 좋지만 이러한 비교를 얻는 방법에 대해서는 깨끗합니다. 또한 신뢰 구간이 겹치는 것에 대한 결과를 발표했습니다. [2] 키와 혈압 만 측정했지만 수백 번의 실험을 한 예상되는 실제 실험보다 큽니다. 그러나 이러한 상황에서는 간단한 조정이 효과가 없으며 조정되지 않은 추정치를 제공하는 것이 좋지만 이러한 비교를 얻는 방법에 대해서는 깨끗합니다. 또한 신뢰 구간이 겹치는 것에 대한 결과를 발표했습니다. [2]

[1] Campbell MJ와 Swinscow TDV (2009) Square One 통계. 11 번째 에디션 옥스포드; BMJ는 Blackwell 출판을 예약합니다

[2] Julious SA, Campbell MJ, Walters SJ (2007) 현재 시험의 결과를 기반으로 미래의 수단이 어디에 있는지 예측합니다. 현대 임상 시험, 28, 352-357.


1
생각을 자극하는 생각에 감사합니다, 마이크 Benjamini, Hochberg 및 Yekutieli는 비교가 "무의미한"것이 아니라 실제로는 동시 적이라고 주장하는 것 같습니다. "모든 매개 변수의 값을 기반으로 조치를 취할 때 동시에 적용 범위가 필요합니다. 임상 시험에서의 치료는 현저히 다른지 여부에 관계없이 모든 검사를 포함 할 가능성이있다. 이것은 동시적인 보장이 필요한 명백한 상황이다. " (일부 CI 만 선택적으로 제시하는 문제는 제외 함)
Alexis

덧붙여, 주어진 "나는 매개 변수를 추정하는 것은 정확한 사실 결코 가설을 테스트하기보다는 통계를보다 효율적으로 사용이라고 믿기 때문에 나는, P-값의 큰 팬이 아니다"당신이 즐길 수있는 이유는 빈도 가설이 될이 거부 편중 테스팅을 않습니다 충분히 큰 표본에 대한 귀무 가설? . 건배.
Alexis

1
모수에 대한 신뢰 구간이 대부분의 추론 형태에서 p- 값보다 우수하다는 점에 동의하지만, 이것이 신뢰 구간에 대해 여러 비교에 대한 수정이 필요하지 않음을 반드시 의미하는지는 확실하지 않습니다. 대부분의 신뢰 구간은 적용 범위를 지정하기 위해 알파를 사용하여 정의됩니다. 엄격한 가설 테스트 프레임 워크와 이혼하더라도 여러 비교를 할 때 공칭 범위 (예 : 95 %, 알파 = 0.05)에 교의 적으로 고수하는 것이 오해의 소지가있는 것 같습니다. 뒤얽힌.
Ryan Simmons

2
Mike Campbell은 "자주 정의에서 신뢰 구간은 가설을 포함하지 않으므로 잠재적으로 관련이없는 다른 비교에 대한 조정이 필요하지 않다"고 말했다. 그것은 이상한 진술이다. CI는 "가설 검정"자체를 반영하지 않을 수 있지만 특정 오류율 (예 : .05)을 갖는 통계적 테스트를 반영하며 테스트 횟수가 증가함에 따라 동일한 기본 수학으로 오류율이 증가합니다. 귀무 가설 검정에 적용되는 원리. p- 값 대신 CI에 중점을 두어 다중 비교 문제를 피할 수는 없습니다.
Bonferroni
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.