Bonferroni 조정에 어떤 문제가 있습니까?


23

다음 문서를 읽었습니다. Perneger (1998) Bonferroni 조정에 문제가 있습니다.

저자는 Bonferroni 조정이 생의학 연구에서 기껏해야 응용이 제한적이며 특정 가설에 대한 증거를 평가할 때 사용해서는 안된다고 요약했습니다.

요약 포인트 :

  • 연구 데이터 (Bonferroni 방법)에서 수행 된 테스트 수에 대한 통계적 유의성을 조정하면 해결하는 것보다 더 많은 문제가 발생합니다.
  • Bonferroni 방법은 일반적인 귀무 가설 (모든 귀무 가설이 동시에 적용됨)과 관련이 있으며 연구자에게 관심이 없거나 거의 사용되지 않습니다.
  • 주요 약점은 결과의 해석이 수행되는 다른 테스트의 수에 달려 있다는 것입니다
  • 유형 II 오류의 가능성도 증가하므로 실제로 중요한 차이는 중요하지 않은 것으로 간주됩니다.
  • 수행 된 유의성 검정을 설명하고 그 이유는 일반적으로 다중 비교를 처리하는 가장 좋은 방법입니다.

다음 데이터 세트가 있고 여러 테스트 수정을 원하지만이 경우 가장 좋은 방법을 결정할 수 없습니다.

여기에 이미지 설명을 입력하십시오

평균 목록이 포함 된 모든 데이터 세트에 대해 이러한 종류의 수정을 수행해야하는지 여부와이 경우 수정을위한 가장 좋은 방법은 무엇인지 알고 싶습니다.


'평균 A', 'meanB'는 정확히 무엇입니까?

3
으로 하지 다중 비교를 보정하면 재생 불가능한 결과의 위험을 실행합니다. 의학과 심리학을 포함하여 많은 분야에서 최근에 정확히 일어난 일을 발견했습니다. 냉소적 인 것처럼 보이지만 선택의 여지가 분명한 것처럼 보입니다. 공개하기 위해 p- 값 기준을 충족 해야하는 연구원은 정확하지 않습니다. 지식을 원하는 회의론자.
whuber

@ whuber 그러나 p- 값을 수정하는 많은 다른 방법을 사용할 수있을 때 여전히 재현 가능한 것으로 간주 될 수 있습니까? 그의 대답에서 martino는 덜 보수적이거나 더 강력한 방법 중에서 선택하는 지침을 제공합니다.
Nakx

@Nakx 재현성은 느슨하게 통계 절차와 관련된 :이 연구는 독립적으로 이러한 시도에 아마도 다른 사람에 의해 수행 (그리고 때 유사한 결과를 얻을 수 있는지 여부를 의미 복제, 하나의 명확한 가설이 사전에 분명히 할 것 해당 가설에 적합한 통계 절차가 사용됩니다. 원래 절차가 올바른 p- 값을 생성하지 않으면 많은 독립적 인 연구에 여러 번 사용될 경우 평균적으로 사용자가 의도하거나 기대하는 것보다 더 재현 할 수없는 결정을 내립니다.
whuber

답변:


23

다른 사람들이 언급 한 보수주의 외에 Bonferroni 수정에있어 잘못된 것은 모든 다중성 수정에있어 잘못된 것입니다. 기본 통계 원칙을 따르지 않으며 임의적입니다. 빈번주의 세계에서 다중성 문제에 대한 유일한 해결책은 없다. 두 번째로, 다중성 조정은 한 진술의 진실성이 어떤 다른 가설이 받아 들여 지는가에 달려 있다는 기본 철학에 근거한다. 이는 다른 매개 변수를 고려할 때 관심있는 매개 변수에 대한 사전 분배가 더 보수적으로 유지되는 베이지안 설정과 같습니다. 일관성이없는 것 같습니다. 이 접근법은 연구자들이 거짓 긍정 실험의 역사에 의해 "불타고"왔으며 이제는 자신의 잘못을 보완하고 싶다고 말할 수 있습니다.

조금 확장하려면 다음 상황을 고려하십시오. 종양학 연구원은 특정 클래스의 화학 요법의 효능을 연구하는 경력을 쌓았습니다. 그녀의 무작위 시험의 이전 20 개 모두 통계적으로 유의미한 효능을 가져왔다. 이제 그녀는 같은 수업에서 새로운 화학 요법을 테스트하고 있습니다. 생존 이익은 유의합니다=0.04. 동료는 연구 된 두 번째 평가 변수 (종양 수축)가 있고 생존 결과에 다중 조정을 적용해야하므로 생존에 별다른 영향을 미치지 않는다고 지적합니다. 동료가 두 번째 종점을 강조했지만 효과적인 약을 찾기 위해 이전에 실패한 20 번의 시도를 조정하는 데 덜 신경 쓰지 않았습니까? Bayesian이 아닌 경우 이전 20 가지 연구에 대한 사전 지식을 어떻게 고려 하시겠습니까? 두 번째 엔드 포인트가 없으면 어떻게됩니까? 동료는 이전의 모든 지식을 무시하고 생존 혜택이 입증되었다고 믿습니까?


2
'반복 가능'에 대한 언급이 명확하지 않습니다. 다중 조정이 필요하지 않은 단일 테스트가있는 경우 의 결과 가 반복 될 가능성은 높지 않습니다. =0.04
Frank Harrell

2
@MJA에 대답하기 위해 두 가지 선호되는 접근법이 있다고 생각합니다. (1) 베이지안 또는 (2) 가설의 우선 순위를 정하고 결과를 우선 순위에 따라 상황에 따라보고합니다.
Frank Harrell

3
그것에 대해 원칙이 없으며 어떤 식 으로든 정확하지 않습니다. Bonferroni의 불평등은 오류 확률 의 상한 입니다. 를 5 개의 매개 변수에 똑같이 쓰는 이유는 무엇 입니까? 수용 영역에 대해 직사각형 영역 대신 타원형 영역을 만드십시오. 왜 Scheffe 나 Tukey의 방법을 사용하지 않습니까? 단순 복합 분산 형 테스트를 사용하지 않는 이유는 무엇입니까? 당신은 하지 않습니다 원하는 달성 을 사용하여 평등. ααα
Frank Harrell

2
두 가지 오류율을 무시하고 있습니다. null 인 경우 Bonferroni는 제품군 당 예상되는 오류 수를 정확하게 유지합니다. 패밀리 당 "적어도 하나"오류 확률 (상관에 따라 다름)에 상한 경계를 제공합니다. 5 가지 테스트에서 알파를 동일하게 사용하는 것은 테스트를 다른 방식으로 우선 순위를 지정할 특별한 이유가없는 한 완벽하게 논리적입니다. 다른 맥락에서 볼 때 원칙적으로 다른 이유가 있습니다. 다른 문맥, 목표 및 가정이 주어지면 대체 방법이 존재하기 때문에 수학적으로 건전한 방법을 사용하는 것이 "원칙적"인 것 같습니다.
Bonferroni

2
@FrankHarrell 귀하의 다른 질문은 단지 내 요점을 설명하기위한 것입니다. 다중성이없는 경우에도 종종 테스트 통계, 테스트 절차 등의 선택이 많이 있습니다. 그것은 당신이 암시하는 것처럼 방법론을 "임의적"으로 만들지 않습니다. 옴니버스 테스트에 관심이 있다면 반드시 하나를 수행하십시오. 일 변량 테스트에만 관심이 있다면, 반드시 일 변량 테스트를 수행하십시오. 다른 질문보다는 관심있는 질문을 다루는 시험을 선택하는 것이 "임의"라고 진지하게 제안하고 있습니까?
Bonferroni

12

그는 Bonferroni 조정이 생의학 연구에 제한적으로 적용되었으며 특정 가설에 대한 증거를 평가할 때 사용해서는 안된다고 요약했다.

Bonferroni 수정은 가장 단순하고 가장 보수적 인 다중 비교 기술 중 하나입니다. 그것은 또한 가장 오래된 것 중 하나이며 시간이 지남에 따라 크게 개선되었습니다. Bonferroni 조정은 거의 모든 상황에서 적용이 제한되어 있습니다. 거의 더 나은 접근 방식이 있습니다. 즉, 다중 비교를 수정해야하지만 덜 보수적이고 강력한 방법을 선택할 수 있습니다.

덜 보수적 인

다중 비교 방법은 일련의 테스트에서 하나 이상의 오 탐지를 얻지 않도록 보호합니다. 수준 에서 한 번의 테스트를 수행 하면 5 %의 확률로 오 탐지를 얻을 수 있습니다. 다시 말해 귀무 가설을 잘못 거부합니다. 수준 에서 10 번의 테스트를 수행 하면 = ~ 40 %로 오 탐지 확률 이 증가합니다.α = 0.05 1 ( 1 0.05 ) 10αα=0.051(10.05)10

페로 니 방법으로 당신은 사용 규모 (즉, 가장 낮은 끝에 의 가족을 보호하기 위해) 상기 테스트를 수준. 다시 말해, 가장 보수적입니다. 이제 Bonferroni가 설정 한 하한값보다 를 높이고 (즉, 테스트를 덜 보수적으로 만들 수 있음) 수준 에서 테스트 제품군을 계속 보호 할 수 있습니다. 이를 수행하는 방법에는 여러 가지가 있습니다. 예를 들어 Holm-Bonferroni 방법 또는 더 나은 False Discovery Rateα b = α / n n α α b ααα=α/ααα

더 강력한

참조 된 논문에서 제기 된 좋은 점 은 유형 II 오류의 가능성도 증가하여 진정으로 중요한 차이가 중요하지 않은 것으로 간주된다는 것입니다.

이건 매우 중요합니다. 강력한 테스트는 존재하는 경우 중요한 결과를 찾는 테스트입니다. Bonferroni 수정을 사용하면 덜 강력한 테스트로 끝납니다. Bonferroni는 보수적이므로 전력이 상당히 감소 할 수 있습니다. False Discovery Rate와 같은 대체 방법 중 하나가 테스트의 성능을 향상시킵니다. 즉, 오 탐지로부터 보호 할뿐만 아니라 진정으로 중요한 결과를 찾을 수있는 능력도 향상시킵니다.

따라서 여러 비교를 할 때 몇 가지 수정 기술을 적용해야합니다. 그리고 예, Bonferroni는 아마도 덜 보수적이고 강력한 방법을 선호하여 피해야합니다


여러 가지 대안이 있습니다. 예를 들어 Holm Bonferroni는 간단하고 이해하기 쉽습니다. 한번 가봐 실험에서 수천 개의 변수를 테스트하는 유전자 발현 또는 단백질 발현에 응용이 있다고 가정하면 FDR이 일반적으로 사용됩니다.
martino

10 개의 테스트에서 40 %의 오 탐지 확률을 계산하는 방법은 테스트가 독립적 인 이벤트 인 것으로 가정하지만 실제 데이터의 경우에는 그렇지 않을 수 있습니다. 나는 그것이 적어도 언급 할 가치가 있다고 생각합니다.
실버 피쉬

또한이 답변이 가족 오류율을 보존하는 방법과 잘못된 발견 률을 유지하는 방법을 혼동하는 것으로 보입니다. 이 두 가지를 모두 논의하는 것은 나쁜 생각이 아니지만, 서로 다른 직무를 수행하기 때문에 동등한 것으로 제시해서는 안된다고 생각합니다.
Silverfish

그러나 내가 잘 이해한다면 FDR (false discovery rate)은 미리 정해진 레벨에서 타입 I 오류 제어를 보장하지 않습니까? (이 질문에 대한 내 답변도 참조하십시오)

그러나 기사의 모든 원시 p- 값을보고하는 것이 더 투명하고 유용하지 않아 독자가 자신의 유효성을 스스로 판단하거나 사용하려는 무수한 조정 방법 중 하나를 선택할 수 있습니까?
Nakx

5

Thomas Perneger는 통계학자가 아니며 그의 논문은 실수로 가득합니다. 그래서 나는 그것을 심각하게 받아들이지 않을 것입니다. 실제로 다른 사람들에 의해 심하게 비판되었습니다. 예를 들어, Aickin은 Perneger의 논문은 "거의 전적으로 오류로 구성되어있다"고 말했다 : Aickin, "여러 테스트를 조정하는 다른 방법이 존재한다"BMJ. 1999 년 1 월 9 일; 318 (7176) : 127.

또한 다중성 조정 없이도 원래 질문의 p- 값은 <.05가 아닙니다. 따라서 어떤 조정 (있는 경우)이 사용되는지는 중요하지 않습니다.


4
링크 주셔서 감사합니다! 더 자세한 내용을 추가했습니다. 이것은 여전히 ​​답변보다 더 많은 의견이며, 추가 할 관심이 있거나 적어도 Aicken의 간략한 요약입니다. Perneger에 통계에 대한 전문 지식이 없다고 말하는 것은 (적절한 표준에 의해) 진실하거나, 모호하거나 유용하지 않은 것 같습니다. 진술을 제거하는 것을 고려 하시겠습니까?
Scortchi-Monica Monica 복원

@Scortchi 나는 "통계에 전문 지식이 없다"를 "통계학자가 아니다"로 바꿨다. 또한 전문가 의견과 전문가가 아닌 의견을 구분하는 것이 유용하지 않다는 의견에 동의하지 않습니다.
Bonferroni

2
내가 알 수있는 한 Perneger는 통계학 학위가 없으며 통계 저널에 논문을 게시하지 않았습니다. 이 질문에 인용 된 논문은 BMJ에서 완전히 잘못되었다고 주장되는 의견 기사입니다. 그렇다면 "합리적인 표준을 넘어서는"논쟁의 여지가없는 Perneger의 전문 지식은 무엇입니까? "가족적"이라는 것이 진실을 방해해서는 안됩니다.
Bonferroni

3
지금까지로 내가 말할 수있는 그는 생물 통계학 석사 및 의료 통계에서 강의 및 임상 시험 및 의학 저널에서 관찰 연구의 분석을 발행 역학 박사 학위를 가진 대학 병원의 교수이다. "통계적 전문 지식이 없다"고 추론한다면, 독자의 가정이 합리적으로 기대하는 것보다 표준이 더 높다고 생각합니다. (표준이 불합리한 것이 아니라 내가 말했던 것입니다.) 어쨌든 편집 해 주셔서 감사합니다!
Scortchi-Monica Monica 복원

5

Bonferroni와 같은 여러 가지 테스트 수정 사항에 대한``추론 이유 ''를 설명하는 것이 좋습니다. 그것이 분명하다면, 신청 여부를 스스로 판단 할 수 있습니다.

μH0:μ=0

H1:μ0H0:μ=0α

H0H0

H0H0H1

우리가 세상에 대한 진실 된 지식을 얻었음을 믿기 때문에 과학에서 잘못된 증거는 나쁜 것입니다. 이러한 종류의 오류는 결과적으로 제어되어야합니다. 그러므로 이런 종류의 증거의 확률에 상한선을 두거나 제 1 종 오류를 통제해야합니다. 이는 허용 가능한 유의 수준을 미리 고정하여 수행됩니다.

5%H05%H0H1H1

H0:μ1=0&μ2=0H1:μ10|μ20α=0.05

H0(1):μ1=0H0(1):μ10H1(2):μ2=0H1(2):μ20α=0.05

H0(1)H0(1)

1(10.05)2=0.0975α

여기서 중요한 사실은 두 가지 테스트가 하나와 sampe 샘플을 기반으로한다는 것입니다!

우리는 독립을 가정했습니다. 독립성을 가정 할 수없는 경우 Bonferroni 부등식을 사용하여 유형 I 오류가 최대 0.1까지 증가 할 수 있음을 보여줄 수 있습니다.

Bonferroni는 보수적이며 Holm의 단계별 절차는 Bonferroni와 동일한 가정하에 있지만 Holm의 절차에는 더 많은 힘이 있습니다.

변수가 이산 적이면 최소 p- 값을 기반으로 테스트 통계를 사용하는 것이 좋으며 대량의 테스트를 수행 할 때 유형 I 오류 제어를 포기할 준비가되면 False Discovery Rate 절차가 더 강력 할 수 있습니다.

편집하다 :

예인 경우 (@Frank Harrell의 답변에있는 예 참조)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0H1(12):μ10|μ20

H0(1)H1(1)H0(2)H1(2)


2
나는이 질문에 다음과 같은 대답이 도움이된다고 생각하지만 "우리가 유의 수준을 5 %로 고정하면 잘못된 증거를 찾을 준비가되었다고 말하고 있습니다 (샘플과의 불운 때문에) )의 확률로 5 % "...... null이 실제로 true이면 오류의 가능성 일뿐 입니다. ( "거짓 증거"는 일반적인 용어입니까? "거짓 긍정적"을 보는 데 더 익숙합니다.)
Silverfish

@ 실버 피쉬; 나는 그것을 다시 표현했다, 당신은 이것이 더 낫다고 생각합니까?

1
나는 그것이 더 낫다고 생각한다- "통계적으로 입증 된"은 아마도 rephrasing으로부터 혜택을받을 것이다. 나는 이것이 p <0.05를 해석하는 사람들이 얼마나 많은지 알고있다.
실버 피쉬

@ Silverfish : 나는 그것이``증거 ''가 아니라는 것에 전적으로 동의하지만 모순으로 증거하기 위해 유추로 시작했기 때문에 실용적 이유로 용어를 사용했습니다. 처음에 이러한 설명을 추가하겠습니다

편집 내용이 혼란 스럽습니다. Frank의 예에서 "화학 요법의 효과"는 생존률과 종양 수축이라는 두 가지 측정을 통해 측정됩니다. 둘 다 화학 요법의 영향을받을 수 있습니다. 가설은 분명히 화학 요법이 효과가 있다는 것입니다. 그러나 "작품"은 두 가지 방법으로 정량화 할 수 있습니다. 그것이 내가 당신의 새로운 실에서 이야기 한 모호한 측면입니다.
amoeba는 Reinstate Monica

4

Bonferroni 보정 및 효과 크기에 대한 훌륭한 설명 http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html 또한 Dunn-Sidak 보정 및 Fisher의 결합 확률 접근법은 대안으로 고려할 가치가 있습니다. 접근 방식에 관계없이 조정 된 값과 원시 p- 값에 효과 크기를 모두보고하면 독자가이를 자유롭게 해석 할 수 있습니다.


원시 및 조정 된 p- 값을 제시하는 조언은 항상 나에게 합리적인 것처럼 보였지만 일반적으로 표준으로 간주됩니까?
실버 피쉬

3

하나, 그것은 매우 보수적입니다. Holm-Bonferroni 방법은 Bonferonni 방법이 수행하는 작업 (패밀리 와이즈 오류율 제어)을 달성하면서도 더욱 균일하게 수행합니다.


즉,이 방법을 사용하여 결과를 수정해야하거나 가설에 따라 결과를 수락해야합니다.
goro

나는 "내 가설에 따라 결과를 받아 들여야한다"는 말의 의미를 모르지만, 그렇지 않으면 유형 1 오류가 매우 부풀어지기 때문에 일종의 다중 테스트 수정을 적용해야합니다.
TrynnaDoStat

"가설에 따라 결과를 받아 들여야합니다"라는 의미는 GLM 및 순열 방법을 포함하여 세 가지 방법으로 분석을 실행했다는 것입니다. 모든 방법은 저에게 중요한 결과를 주었다. 그리고 그 결과는 내가 그룹들간에 상당한 차이를 가져야한다는 가설을지지한다. 여러 수정에 Bonferroni를 사용한 경우 모든 결과가 중요하지 않았습니다. 이 방법이 분석에 최적이 아니기 때문에 다른 방법을 사용할 수 있습니까? Bonferroni를 사용하지 않고 다른 방법의 결과에 따라 결과를 신뢰할 수 있습니까?
goro

1
네 말을 이해합니다 동일한 가설 3 가지 다른 방법으로 검정 한 경우 다중 검정 수정을 적용하지 않습니다. 이 세 가지 테스트 결과가 서로에 크게 의존하기 때문입니다.
TrynnaDoStat

3

"False Discovery Rate"방법을 Bonferroni에 대한 보수적 인 대안으로 고려해야합니다. 만나다

John D. Storey, "긍정적 거짓 발견 비율 : 바이아 해석 및 q- 값", Annals of Statistics 2003, Vol. 31, No. 6, 2013–2035.


3
이것들은 다른 것을 제어합니다. FDR은 귀하의 통화 중 5 % (또는 귀하의 알파가 무엇이든)가 오탐 (False Positive)이되도록 보장합니다.
매트 크라우스

@Mat Krause : 그리고 내가 잘 이해한다면, FDR (false discovery rate)은 미리 정해진 레벨에서 타입 I 오류 제어를 보장하지 않습니까? (이 질문에 대한 내 답변도 참조하십시오)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.