Fisher 및 Neyman-Pearson 프레임 워크를 언제 사용해야합니까?


73

피셔의 가설 검정 방법과 Neyman-Pearson 사고 학교의 차이점에 대해 최근에 많이 읽었습니다.

나의 질문은 잠시 철학적 이의를 무시하는 것이다. 통계 모델링에 대한 Fisher의 접근 방식은 언제 사용해야하고, 중요도 수준 등의 Neyman-Pearson 방법은 언제 사용해야합니까? 어떤 실질적인 문제에서 어떤 견해를지지 할 것인지 결정하는 실용적인 방법이 있습니까?


그것에 대해 어디서 읽었습니까? 출처를 인용하십시오.
xmjx

8
예를 들어 여기 ( jstor.org/stable/2291263 ) 또는 여기 ( stats.org.uk/statistical-inference/Lenhard2006.pdf )를 참조하십시오.
Stijn

답변:


83

토론 용어를 내가 정의한대로 정의하여 시작하겠습니다. p- 값은 샘플 통계 (예를 들어, 샘플 평균)에 걸릴 확률 까지로 , 또는 , 샘플 통계에 비해 일부 참조 값의 경우 참조 값이 실제 모집단 모수했다입니다. 예를 들어, p- 값은 다음과 같은 질문에 답합니다. 보다 샘플 평균 IQ를 얻을 확률은 얼마입니까100이 실제로 표본을 추출한 모집단의 평균 인 경우 100에서 멀어집니다. 문제는 통계적 추론을 위해 어떻게 그 숫자를 사용해야합니까? |엑스¯100|

피셔 는 p- 값이 귀무 가설에 대한 지속적인 증거 척도 로 해석 될 수 있다고 생각했습니다 . 결과가 '유의 한'특정 고정 값은 없습니다. 일반적으로 사람들에게 이것을 전달하려고 시도하는 방법은 모든 의도와 목적에 대해 p = .049와 p = .051이 귀무 가설에 대해 동일한 양의 증거를 구성한다는 것을 지적하는 것입니다 ( 여기서 @Henrik의 답변 참조 ). .

반면에 Neyman & Pearson 은 공식적인 의사 결정 프로세스의 일부로 p- 값을 사용할 수 있다고 생각했습니다 . 조사가 끝나면 귀무 가설을 기각하거나 귀무 가설을 기각해야합니다. 또한 귀무 가설은 사실이거나 사실이 아닐 수 있습니다. 따라서 네 가지 이론적 가능성이 있습니다 (어떤 상황에서도 두 가지만 있음). 올바른 결정을 내리 거나 (거짓을 기각하지 못하거나, 귀무 가설을 기각하지 못함) 유형을 만들 수 있습니다 I 또는 유형 II 오류 (실제 null을 거부하거나 각각 거짓 null 가정을 거부하지 않음). (p- 값은 여기서 논의하는 I 형 오류율과 같지 않습니다..) p- 값을 사용하면 귀무 가설을 기각할지 여부를 결정하는 프로세스를 공식화 할 수 있습니다. Neyman-Pearson 프레임 워크 내에서 프로세스는 다음과 같이 작동합니다. 반대에 대한 충분한 증거가 없으면 사람들이 기본적으로 믿을 것이라는 귀무 가설이 있으며, 대신에 귀하가 사실이라고 생각하는 대체 가설이 있습니다. 당신이 기꺼이 살 수있는 장기 오류율이 있습니다 (이것이 5 %와 20 % 일 필요는 없습니다). 이러한 점을 고려하면 검정력 분석을 수행하고 그에 따라 연구를 수행하여 최대 2 개의 가설을 유지하면서 오류율을 유지하도록 연구를 설계합니다. (일반적으로 이는 충분한 데이터가 있음을 의미합니다.) 연구가 완료된 후 p- 값을 와 비교합니다.p < αα 경우 귀무 가설을 기각합니다 . 그렇지 않으면 귀무 가설을 기각 할 수 없습니다. 어느 쪽이든, 학업은 완료되었으며 결정을 내 렸습니다. <α

Fisherian과 Neyman-Pearson 접근 방식은 동일하지 않습니다 . Neyman-Pearson 프레임 워크의 핵심 논쟁은 연구가 끝날 때 결정을 내리고 떠나야한다는 것입니다. 의심되는 바에 따르면, 한 연구원은 한 번 피의자에게 '무의미한'결과를 제시하여 자신이해야 할 일을 물었고 피셔는 '더 많은 데이터를 얻으십시오'라고 말했다.


개인적으로, 나는 Neyman-Pearson 접근법의 우아한 논리가 매우 매력적이라고 ​​생각합니다. 그러나 나는 그것이 항상 적절하다고 생각하지 않습니다. 내 생각에 Neyman-Pearson 프레임 워크를 고려하기 전에 적어도 두 가지 조건을 충족해야합니다.

  1. 어떤 이유로 관심을 갖는 특정 대안 가설 ( 효과 크기 )이 있어야합니다. (저는 효과 크기가 무엇인지, 이유가 무엇인지, 그것이 근거가 튼튼하거나 일관성이 있는지 여부에 상관없이 하나만 가지고 있습니다.)
  2. 대립 가설이 참인 경우 그 효과가 '유의적인'것으로 의심 될만한 이유가 있어야합니다. 실제로 이것은 일반적으로 전력 분석을 수행하고 충분한 데이터를 가지고 있음을 의미합니다.

이러한 조건이 충족되지 않아도 p- 값은 여전히 ​​Fisher의 아이디어와 일치하여 해석 될 수 있습니다. 또한, 대부분의 경우 이러한 조건이 충족되지 않는 것 같습니다. 다음은 테스트가 실행되지만 위의 조건이 충족되지 않는 몇 가지 쉬운 예입니다.

  • 다중 회귀 모델에 대한 옴니버스 ANOVA (모든 가정이 아닌 제로 기울기 매개 변수가 만들어 함께 오는 방법을 알아낼 수 있습니다 비 중심성 매개 변수 에 대한 F 분포를 하지만 원격으로 직관적 아니다, 나는 누군가를 의심 그렇습니다)
  • a의 값 샤피로-Wilk의 회귀 분석에서 잔차의 정규성의 시험 (어떤 크기 당신이 걱정하는 이유는 무엇입니까? 얼마나 많은 전력이 당신에게 그 크기가 올 때 널을 거부해야합니까?)
  • 분산 동질성 검정 값 (예 : Levene 검정 , 위와 동일한 설명)
  • 가정 등을 확인하기위한 기타 테스트
  • 연구에 주요 관심의 설명 변수 이외의 공변량의 t- 검정
  • 초기 / 탐사 연구 (예 : 파일럿 연구)

이것이 오래된 주제이지만 그 대답은 대단히 감사합니다. +1
Stijn

+1 좋은 답변입니다! 이러한 개념을 간결하게 설명 할 수있는 능력에 깊은 감명을 받았습니다.
COOLSerdash

1
정말 멋진 답변입니다. @gung
Patrick S. Forscher

5
AFAIK Neyman-Pearson은 Fisherian p 값을 사용 하지 않았 으므로 "p <alpha"기준을 사용했습니다. "Neyman-Pearson"이라고 부르는 것은 실제로 순수한 Neyman-Pearson 의사 결정 이론이 아니라 "가설 가설 검정"(Fisher와 NP의 하이브리드)입니다.
Frank

"참조 값이 실제 모집단 모수 인 경우" 정확히 말하면, "확률 분포가 귀무 가설에 지정된 것이라면"입니다. 귀무 가설은 평균과 같은 요약 통계를 지정하는 것이 아니라 전체 확률 분포를 지정합니다. 분포 패밀리는 암시 적 (예 : 정규 분포)으로 간주되며,이 시점에서 모수를 지정하면 분포가 지정됩니다.
누적

18

실용성은 보는 사람의 눈에 있지만

  • Fisher의 유의성 테스트는 데이터가 흥미로운 '신호'를 제안하는지 여부를 결정하는 방법으로 해석 될 수 있습니다. 귀무 가설 (Type I 오류 일 수 있음)을 거부하거나 아무 말도하지 않습니다. 예를 들어, 많은 현대적인 '오 믹스'애플리케이션에서이 해석은 적합합니다. 우리는 너무 많은 Type I 오류를 만들고 싶지 않지만 가장 흥미로운 신호를 꺼내고 싶지만 일부는 놓칠 수 있습니다.

  • Neyman-Pearson의 가설은 우리가 결정하는 두 가지 분리 된 대안 (예 : Higgs Boson이 존재하거나 존재하지 않는)이있을 때 의미가 있습니다. 제 1 종 오류의 위험뿐만 아니라 제 2 종 오류를 만들 수도 있습니다. 실제 신호가 있지만 '널'결정을 내릴 때 신호가 없다고 말합니다. NP의 주장은 너무 많은 제 1 종 오류율을 만들지 않으면 서 제 2 종 오류의 위험을 최소화하고자한다는 것입니다.

종종 어떤 시스템도 완벽하게 보이지 않을 것입니다. 예를 들어 포인트 추정치 및 해당 불확실성 측정 값을 원할 수도 있습니다. 또한 p- 값을보고하고 테스트 해석을 독자에게 맡기기 때문에 사용 하는 버전 중요하지 않을 있습니다. 그러나 위의 방법 중 하나를 선택하려면 유형 II 오류가 응용 프로그램과 관련이 있는지 여부를 식별하십시오.


5

요점은 철학적 차이를 무시할 수 없다는 것입니다. 통계의 수학적 절차는 기본 가설, 가정, 이론, 철학없이 적용 할 수있는 것만으로 독립된 것이 아닙니다.

즉, 빈번한 철학을 고집한다면 Neyman-Pearson이 실제로 고려해야 할 몇 가지 매우 특별한 문제가있을 수 있습니다. 그들은 모두 품질 관리 또는 fMRI와 같은 반복 테스트에 속합니다. 사전에 특정 알파를 설정하고 전체 유형 I, 유형 II 및 전력 프레임 워크를 고려하면 해당 설정에서 더 중요합니다.


나는 빈번한 통계를 고집하지는 않지만 Fisher 또는 Neyman-Pearson 관점을 채택하는 것이 자연스러운 상황인지 궁금합니다. 나는 철학적 차이가 있지만, 아마도 고려해야 할 실질적인 측면이 있다는 것을 알고 있습니다.
Stijn

3
네, 제가 말한 바로는 ... 네이 먼-피어슨은 실제로 당신이 각각의 이론적 근거없이 많은 테스트를하는 상황에 관심이있었습니다. Fisher의 관점은 실제로 그 문제를 다루지 않습니다.
John

1

나의 이해는 : p- 값은 우리에게 무엇을 믿어야하는지 (충분한 데이터로 이론을 검증하는 것) 말하고, Neyman-Pearson 접근 방식은 우리에게 무엇을해야 하는지를 알려주는 것입니다 (제한된 데이터로도 최선의 결정을 내림). 따라서 (작은) p- 값이 더 엄격한 반면 Neyman-Pearson 접근 방식은 더 실용적입니다. 이것이 아마도 과학적 질문에 답하기 위해 p- 값이 더 많이 사용되는 반면 Neyman과 Pearson은 통계적 / 실제 결정에 더 많이 사용되는 이유 일 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.