빈번한 가설 검정이 충분히 큰 표본으로 귀무 가설을 기각하는 방향으로 편향되는 이유는 무엇입니까?


46

이 구절을 우연히 발견했을 때 완전히 관련이없는 문제에 대해 Bayes 요소에 대한 이 기사 를 읽었습니다.

베이지안 형태는 모델 선택 편향을 피하고 귀무 가설을지지하는 증거를 평가하며 모델 불확실성을 포함하며 중첩되지 않은 모델을 비교할 수 있기 때문에 베이 즈 요인을 사용한 가설 검정은 잦은 가설 검정보다 강력합니다. 동일한 종속 변수가 있음). 또한 빈번한 유의성 검정은 표본 크기가 충분히 큰 귀무 가설을 기각하기 위해 편향됩니다. [강조 추가]

나는 Karl Friston의 2012 년 NeuroImage 논문 에서이 주장 을 보았는데 , 여기서 그는 고전적 추론오류 라고 불렀다 .

왜 이것이 사실이어야하는지에 대한 진정으로 교육적인 설명을 찾는 데 약간의 어려움이있었습니다. 특히 궁금합니다.

  1. 왜 이런 일이
  2. 그것을 막는 방법
  3. 실패, 그것을 감지하는 방법

7
null이 문자 그대로, 정확히 사실 일 때는 사실이 아니기 때문에 다소 논란의 여지가 있지만, 거의 그렇지 않습니다 (스퓨리어스 상관 관계와 같은 모든 종류의 복잡성으로 인해). 가설 적으로 말하면, 표본이 충분히 거대하다면 유사하게 통제되지 않은 중재자가 있음에도 불구하고 수백 개의 변수 길이의 매개체 체인으로 인해 가장 의심스러운 상관 관계 (예 : r = .001)를 감지 할 수 있습니다. 논란의 여지가 있지만 그 관계는 실제로 존재하기 때문에 실제로 "바이어스"인지 여부는 여전히 다소 논쟁의 여지가있는 IMO입니다.
Nick Stauner

@NickStauner, 아, 그것은 실제로 많은 의미가 있습니다! 직관적 인 설명 감사합니다!
blz

3
Tal Yarkoni는 Friston의 기사에 대해 매우 밝게 비판 한 글을 썼습니다 : talyarkoni.org/blog/2012/04/25/…
jona

@ jona, 내가 여기에 전체 cogsci 군중을 뛰고있는 것 같습니다 =) 참조 주셔서 감사합니다, 이것은 실제로 좋은 독서처럼 보입니다!
blz

8
가정이 주어지면 그 진술은 그대로 거짓으로 보이지만 실제 문제가되고 있습니다 (충분히 큰 샘플을 사용하면 NHST는 그 효과가 아무리 작더라도 허위 null을 기각 할 것입니다) . 사람들이 문제를 발견하면 일반적으로 가설 검정이 필요하지 않다는 것을 나타냅니다. 동일한 기본 문제 (가설 테스트보다는 CI로 구성되어 있음) 가이 답변
Glen_b

답변:


44

질문 1에 대한 답 : 이것은 실제 차이가 정확히 0 일 때 차이에 대한 빈번한 검정 (예 : 차이가없는 귀무 가설 / 일부 형태의 검정)에서 표본 크기가 증가함에 따라 값이 임의로 작아지기 때문에 발생 합니다 . 0에 가까운 중재에 반대하는 것은 현실적이지 않다 (닉 스타이너의 OP에 대한 주석 참조). 빈도주의 시험 통계의 에러는 일반적으로 그 결론적으로, 시료의 크기에 따라 감소하기 때문에 -value 임의로 작아 져 있는 모든 차이점은 충분히 큰 샘플 크기와 임의의 레벨에 중요하다 . Cosma Shalizi는 이것에 대해 단호하게 글을 썼습니다 .pp

질문에 대한 대답 2 : 빈번한 가정 테스트 프레임 워크 내에서 차이를 감지하는 것에 대해서만 추론하지 않음 으로써이를 방지 할 수 있습니다 . 예를 들어, 하나는 할 수 있습니다 결합 에 대한 추론 차이동등 하나는 선호되지 않도록 (또는 가미하여!)를 입증 책임을에 효과의 증거효과의 부재의 증거 . 효과가 없다는 증거는 다음과 같습니다.

  1. 동등성 (TOST)에 대한 두 가지 일방적 검정
  2. 동등성대해 균일하고 가장 강력한 테스트
  3. 동등성에 대한 신뢰 구간 접근 합니다 (있는 경우 즉, % CI 검정 통계량은 사전 동등성 / 관련성 -defined 범위, 다음 하나가에서 동등한 결론 중요성 수준).12αα

이러한 접근 방식이 모두 공유 하는 것은 어떤 효과 크기가 관련 차이를 구성하는지에 대한 선험적 인 결정 이며, 적어도 관련이있는 것으로 간주되는 것 보다 큰 차이 틀린 귀무 가설 입니다.

등가 대한 차이를 시험 및 시험에서 결합 추론 따라서 샘플 크기는이 방법 (2 × 개의 테이블, H 차분 실증 귀무 가설에 대한 결합 실험에 의한 네 개의 가능성을 나타내는 크며 때 설명 바이어스 방지 및 동등성) 부정적 귀무 가설, H )0+0

차이에 대한 결합 검정과 동등성 검정의 네 가지 가능성

타파 테스트가 하나입니다 사분면에 주목 예는 당신이 더 차이의 귀무 가설을 거부,하지만 당신은 또한 그래서 네 차이가있어, 관련 차이의 귀무 가설을 거부하지만, 당신은 선험적가 당신에 대해 걱정하지 않는다 않기로 결정 너무 작아서

질문 3에 대한 답변 : 2에 대한 답변을 참조하십시오.


2
이와 같은 답변이 계속 여기에옵니다. 감사합니다!
blz

2
이러한 결합 된 테스트를 "관련성 테스트"라고하며 아직 거의 연구하지 않았습니다. 그러나 일반적인 -confidence interval이 관련성 영역에서 분리 된 경우 Null 가설을 기각 하는 경우 (보수적) 관련성 결정을 찾을 수 있습니다 . 따라서 @Alexis는 관련성 테스트의 경우 를 사용하고 동등성 테스트의 경우 합니다. 1αα2α
Horst Grünbusch

질문 1에 대한 답변을 보충하기 위해 Cosma Shalizi의 관련 블로그 게시물

2
Michael Lew-Alexis는 "질문 1에 대한 답변"이 실제로 훨씬 더 적절하게 답변되어 있지만 모두가이 질문에 매우 도움이된다는 사실에 약간 놀랐습니다. 수학적으로 말하면, 가설 검정은 바이어스의 정상적인 정의에 따라 실제로 큰 표본 크기에 의해 바이어스되지 않습니다 (실제로 작은 표본 크기는 문제가 될 수 있음)!
Florian Hartig

3
나는 문제를 이해하고 평가에 동의합니다.! H0이 처음에 무한히 가능성이 있고 1에 가까울 때 가설 검정을 수행하는 것은 유익하지 않거나 오도의 소지가 있습니다. 편견의 정의가 방법이 요구해서는 안되는 질문에 올바른 결과를 제공한다는 것이 아니라면.
Florian Hartig

21

큰 표본을 사용한 빈번한 검정은 귀무 가설이 참이면 귀무 가설을 기각하는 데 치우친 편향을 나타내지 않습니다. 검정 가정이 유효하고 귀무 가설이 참이면 큰 표본이 ​​작은 표본보다 귀무 가설을 기각 할 위험이 더 이상 없습니다. 만약 널이 참이 아니라면 우리는 그것을 기꺼이 거절 할 것이기 때문에, 큰 샘플이 작은 샘플보다 거짓 널을 더 자주 거부한다는 사실은 '바이어스'가 아니라 적절한 행동입니다.

'과도한 실험'에 대한 두려움은 귀무 가설이 거의 사실 일 때 귀무 가설을 기각하는 것이 좋지 않다는 가정에 기초합니다. 그러나 그것이 거의 사실이라면 실제로 거짓입니다! 거부하지만, 관찰 된 효과 크기를 알아 차리고 명확하게보고하지 마십시오. 사소하게 작기 때문에 진지하게 고려할 가치는 없지만, 가설 검정 외부의 정보를 고려한 후에 그 문제에 대한 결정을 내려야합니다.


2
표본 크기가 증가함에 따라 잦은 테스트가 귀무 가설을 기각하지 않는다는 믿음은 이 와 의미 있고 실질적으로 다르다는 가정에 기반합니다 . 00+really frickin' tiny
Alexis

6
@Alexis 두 번째 단락을 다시 읽으십시오. 나는 정말 작은 것을 찌르는 것이 실질적으로 중요하지는 않지만 논리적으로 0도 아니라는 것에 절대적으로 동의합니다.
Michael Lew

6
대중에게 쓸모없는 의견에 대해 죄송하지만 @MichaelLew, 나는 당신의 대답을 정말로 좋아했습니다. 첫 번째 문장은 매우 중요하며 나는 그것이 Alexis의 대답에서 효율적으로 설명되었다고 생각하지 않습니다 (물론 좋습니다).
Richard Hardy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.