다중 비교가 왜 문제가됩니까?


44

다중 비교 에서 실제로 문제가 무엇인지 이해하기가 어렵습니다 . 간단한 비유로 많은 결정을 내리는 사람은 많은 실수를 저지를 것이라고합니다. 따라서 Bonferroni 보정과 같이 매우 보수적 인 예방 조치가 적용 되어이 사람이 가능한 한 실수를 전혀하지 않을 확률을 만듭니다.

그러나 왜 우리 는 잘못된 결정 의 비율 이 아니라 자신이 한 모든 결정 중에서 실수를 저지른 사람에 대해 걱정해야 합니까?

다른 비유와 혼동되는 부분을 설명하려고 노력하겠습니다. 두 명의 판사가 있는데 한 명은 60 세이고 다른 한 명은 20 세라고 가정합니다. 그런 다음 Bonferroni의 수정은 실행을 결정할 때 20 세가 된 사람에게 가능한 한 보수적이라고 말합니다. 그는 수년 동안 판사로 일하고 더 많은 결정을 내릴 것이므로 조심해야합니다. 그러나 60 세가 된 사람은 곧 은퇴하고 더 적은 결정을 내릴 수 있으므로 다른 사람에 비해 더 부주의 할 수 있습니다. 그러나 실제로는 두 판사 모두 의사 결정의 총 수에 관계없이 똑같이 신중하거나 보수적이어야합니다. 나는이 유추가 Bonferroni 수정이 적용되는 실제 문제와 다소 유사하다고 생각합니다.


8
실제로 귀하의 질문에 대한 답변은 아니지만 FDR (False Discovery Rates)을 경험 한 적이 있습니까? Narum의 "Beyond Bonferroni": springerlink.com/content/c5047h0084528056
apeescape

답변:


40

본 페로 니 (Bonferroni) 수정에 대한 고전적인 반론 인 내용을 언급했습니다. 내가 할 모든 테스트에 따라 알파 기준을 조정해서는 안됩니까? 이런 종류의 불합리한 암시는 일부 사람들이 Bonferroni 스타일 수정을 전혀 믿지 않는 이유입니다. 때로는 경력에서 다루는 데이터의 종류가 문제가되지 않는 경우가 있습니다. 각각의 새로운 증거에 대해 하나 또는 아주 적은 결정을 내리는 판사에게 이것은 매우 유효한 주장입니다. 그러나 20 명의 피고인이있는 판사는 어떻습니까? 그리고 누가 하나의 큰 데이터 세트 (예 : 전쟁 재판소)를 근거로 판단합니까?

당신은 논쟁의 깡통 부분에서 차기를 무시하고 있습니다. 일반적으로 과학자들은 알파보다 p- 값이 낮은 것을 찾고 있습니다. 하나를 찾으려는 모든 시도는 캔에서 또 다른 발 차기입니다. 충분한 샷을 얻으면 결국 하나를 찾습니다. 그러므로 그렇게하기 위해서는 처벌을 받아야합니다.

이 두 가지 주장을 조화시키는 방법은 두 가지 주장이 모두 사실임을 깨닫는 것입니다. 가장 간단한 해결책은 캔 종류의 문제에 대한 킥으로 단일 데이터 세트 내의 차이 테스트를 고려하는 것이지만, 교정 범위를 외부로 확장하면 미끄러운 경사가됩니다.

이것은 수많은 분야에서 진정으로 어려운 문제입니다. 특히 FMRI는 수천 개의 데이터 포인트가 비교되고 우연히 중요한 부분이 생길 수있는 FMRI입니다. 이 분야는 역사적으로 매우 탐구 적 이었으므로 수백 개의 뇌 영역이 순전히 우연히 보일 것이라는 사실을 교정하기 위해 무언가를해야합니다. 따라서,이 분야에서 많은 기준 조정 방법이 개발되었다.

반면에 일부 분야에서는 최대 3 ~ 5 수준의 변수를보고있을 수 있으며 유의 한 분산 분석이 발생할 경우 항상 모든 조합을 테스트해야합니다. 이것은 몇 가지 문제 (유형 1 오류)가있는 것으로 알려져 있지만 특히 끔찍한 것은 아닙니다.

그것은 당신의 관점에 달려 있습니다. FMRI 연구원은 기준 전환이 실제로 필요하다는 것을 인식하고 있습니다. 작은 분산 분석을보고있는 사람은 테스트에서 분명히 무언가가 있다고 느낄 수 있습니다. 다중 비교에서 적절한 보수적 관점은 항상 단일 데이터 세트를 기반으로하는 것에 대해 무언가를 수행하는 것입니다. Bayesian이 아닌 한 새로운 데이터가 있으면 기준이 재설정됩니다.


감사합니다. 매우 도움이되었습니다. 담당자가 충분하면 투표하겠습니다.
AgCl

FMRI 연구원은 아마도 FDR (False Discovery Rate) 기준을 사용할 것입니다. 장기간의 테스트에서 알파 * 100 % 오 탐지를 보장하기 때문입니다.
Brandon Sherman

@John, 이 질문에 대답 해 주 시겠습니까 ? stats.stackexchange.com/questions/431011/… 도와 주시면 기쁠 것입니다.
Sabbir Ahmed

26

존경받는 통계 학자들은 여러 비교에서 다양한 입장을 취했습니다. 미묘한 주제입니다. 누군가가 그것이 간단하다고 생각한다면, 그들이 그것에 대해 얼마나 많이 생각했는지 궁금합니다.

Andrew Gelman의 다중 테스트에 대한 흥미로운 베이지안 관점은 다음과 같습니다 . 다중 비교에 대해 걱정하지 않는 이유


2
이 백서에서 흥미로운 점은 원근법 이 베이지안 이라는 점입니다. 그러나 다중 비교를위한 수정을 대체하기 위해 제공되는 계층 적 모델링 접근 방식 을 사용하면 베이지안 이 아니 어도됩니다.
접합 형 사전

1
나는 그 기사를보고 있었다. 아마도 더 많이 인용해야 할 것 같습니다. 고급 다중 비교 기술이 잘 알려져 있지 않거나 수행하기 쉽기 때문에 배수 효과가 떨어지는 것을 싫어합니다. 대조적으로, lmer 접근법은 단순한 드롭 데드입니다. 고려해야 할 심각한 문제가 있는지 궁금합니다.
russellpierce


13

앞서 언급 한 의견과 관련하여, fMRI 연구원이 기억해야 할 것은 임상 적으로 중요한 결과는 뇌의 fMRI에서 단일 픽셀의 밀도 이동이 아니라 중요하다는 것입니다. 임상 적 개선 / 결손을 초래하지 않는다면 문제가되지 않습니다. 여러 비교에 대한 우려를 줄이는 한 가지 방법입니다.

또한보십시오:

  1. 바우어, P. (1991). 임상 시험에서의 다중 테스트. Stat Med, 10 (6), 871-89; 토론 889-90.
  2. Proschan, MA & Waclawiw, MA (2000). 임상 시험에서 다중도 조정을위한 실용적인 지침. 대조 임상 시험, 21 (6), 527-39.
  3. KJ (Rothman, KJ) (1990). 다중 비교에는 조정이 필요하지 않습니다. 역학 (매사추세츠 주 캠브리지), 1 (1), 43-6.
  4. Perneger, TV (1998). Bonferroni 조정에 문제가 있습니다. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.

이 또한 인용 확실히 가치가 prefrontal.org/files/posters/Bennett-Salmon-2009.jpg을
니코

나는 그들이 죽은 연어의 감정에 관해 묻는 재미를 많이 가지고 있다고 확신합니다 !!!
니코

이 게시물에는 RCT : j.mp/bAgr1B 와 관련된 유용한 참고 자료도 있습니다 .
chl

10

수정 아이디어 : 당신은 앞면 때 나는 경우를 취할 것입니다, 독립적 인 랜덤 변수 에 대한 그런를 에서 그려 . 나는 당신이 어떤 것이 0이 아닌 평균을 가지고 있고, 공식적으로 테스트하고 싶다고 가정합니다.n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0H1i:θi0

임계 값의 정의 : 귀하는 결정을 내 렸으며 목적이 다를 수 있습니다. 주어진 테스트에서 반드시 임계 값 를 선택하고 경우 를 허용하지 않기로 결정 합니다.niτiH0i|Xi|>τi

다른 옵션 : 임계 값 를 선택해야하며 두 가지 옵션이 있습니다 .τi

  1. 모두에게 동일한 임계 값 을 선택하십시오

  2. 모든 사람에 대해 다른 임계 값 을 선택 합니다 (대부분 데이터 단위 임계 값, 아래 참조).

다른 목표 : 이 옵션은 다음 과 같은 다른 목표를 위해 구동 될 수 있습니다

  • 하나 이상의 대해 를 잘못 거부 할 확률을 제어 합니다.H0ii
  • 허위 경보 비율 (또는 False Discovery Rate)의 예상 제어

    목적이 무엇이든간에 데이터 단위 임계 값을 사용하는 것이 좋습니다.

귀하의 질문에 대한 나의 대답 : 직감은 데이터 단위 임계 값을 선택하는 주요 휴리스틱과 관련이 있습니다. 다음은 (본 페로 니보다 더 강력한 홀름 절차의 기원에서) :

가장 낮은 대한 결정을 이미 내렸다고 상상해보십시오. 결정은 를 모두 수락 하는 것입니다. 그럼 당신은 비교를해야하고 잘못 거부하는 위험을 감수하지 않습니다 ! 예산을 사용하지 않았으므로 나머지 테스트에 대한 위험이 약간 높아지고 더 큰 임계 값을 선택할 수 있습니다.| X 나는 | H 0 i n - p H 0 ip|Xi|H0inpH0i

판사 인 경우 : 두 판사 모두 자신의 삶에 대해 동일한 허위 고발 예산을 가지고 있다고 가정합니다. 60 세의 판사는 과거에 누군가를 고발하지 않았다면 보수적이지 않을 수 있습니다! 그러나 만약 그가 이미 많은 비난을했다면 그는 더 보수적이고 아마도 가장 젊은 판사보다 더 많을 것이다.


나는 당신이 당신의 가설에 오타가 있다고 생각합니다. 둘 다 같은 것 같습니다 ...
walkytalky

2

실례가되는 (그리고 재미있는) 기사; http://www.jsur.org/ar/jsur_ben102010.pdf ) fmri와 같이 많은 변수를 발전시키는 실제 연구에서 다중 테스트 수정의 필요성에 대해. 이 짧은 인용은 대부분의 메시지를 말합니다.

"[...] 우리는 사후 대서양 연어를 대상으로 fMRI 스캔 세션을 마쳤습니다. 연어는 나중에 한 그룹의 인간 대상에게 시행 된 것과 같은 사회적 관점을 취하는 작업을 보여주었습니다."

즉, 내 경험상 사용자가 여러 테스트 수정을 사용하도록 장려하는 훌륭한 주장입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.