피셔의 가설 검정 방법과 Neyman-Pearson 사고 학교의 차이점에 대해 최근에 많이 읽었습니다.
나의 질문은 잠시 철학적 이의를 무시하는 것이다. 통계 모델링에 대한 Fisher의 접근 방식은 언제 사용해야하고, 중요도 수준 등의 Neyman-Pearson 방법은 언제 사용해야합니까? 어떤 실질적인 문제에서 어떤 견해를지지 할 것인지 결정하는 실용적인 방법이 있습니까?
피셔의 가설 검정 방법과 Neyman-Pearson 사고 학교의 차이점에 대해 최근에 많이 읽었습니다.
나의 질문은 잠시 철학적 이의를 무시하는 것이다. 통계 모델링에 대한 Fisher의 접근 방식은 언제 사용해야하고, 중요도 수준 등의 Neyman-Pearson 방법은 언제 사용해야합니까? 어떤 실질적인 문제에서 어떤 견해를지지 할 것인지 결정하는 실용적인 방법이 있습니까?
답변:
토론 용어를 내가 정의한대로 정의하여 시작하겠습니다. p- 값은 샘플 통계 (예를 들어, 샘플 평균)에 걸릴 확률 까지로 , 또는 더 , 샘플 통계에 비해 일부 참조 값의 경우 참조 값이 실제 모집단 모수했다입니다. 예를 들어, p- 값은 다음과 같은 질문에 답합니다. 보다 샘플 평균 IQ를 얻을 확률은 얼마입니까100이 실제로 표본을 추출한 모집단의 평균 인 경우 100에서 멀어집니다. 문제는 통계적 추론을 위해 어떻게 그 숫자를 사용해야합니까?
피셔 는 p- 값이 귀무 가설에 대한 지속적인 증거 척도 로 해석 될 수 있다고 생각했습니다 . 결과가 '유의 한'특정 고정 값은 없습니다. 일반적으로 사람들에게 이것을 전달하려고 시도하는 방법은 모든 의도와 목적에 대해 p = .049와 p = .051이 귀무 가설에 대해 동일한 양의 증거를 구성한다는 것을 지적하는 것입니다 ( 여기서 @Henrik의 답변 참조 ). .
반면에 Neyman & Pearson 은 공식적인 의사 결정 프로세스의 일부로 p- 값을 사용할 수 있다고 생각했습니다 . 조사가 끝나면 귀무 가설을 기각하거나 귀무 가설을 기각해야합니다. 또한 귀무 가설은 사실이거나 사실이 아닐 수 있습니다. 따라서 네 가지 이론적 가능성이 있습니다 (어떤 상황에서도 두 가지만 있음). 올바른 결정을 내리 거나 (거짓을 기각하지 못하거나, 귀무 가설을 기각하지 못함) 유형을 만들 수 있습니다 I 또는 유형 II 오류 (실제 null을 거부하거나 각각 거짓 null 가정을 거부하지 않음). (p- 값은 여기서 논의하는 I 형 오류율과 같지 않습니다..) p- 값을 사용하면 귀무 가설을 기각할지 여부를 결정하는 프로세스를 공식화 할 수 있습니다. Neyman-Pearson 프레임 워크 내에서 프로세스는 다음과 같이 작동합니다. 반대에 대한 충분한 증거가 없으면 사람들이 기본적으로 믿을 것이라는 귀무 가설이 있으며, 대신에 귀하가 사실이라고 생각하는 대체 가설이 있습니다. 당신이 기꺼이 살 수있는 장기 오류율이 있습니다 (이것이 5 %와 20 % 일 필요는 없습니다). 이러한 점을 고려하면 검정력 분석을 수행하고 그에 따라 연구를 수행하여 최대 2 개의 가설을 유지하면서 오류율을 유지하도록 연구를 설계합니다. (일반적으로 이는 충분한 데이터가 있음을 의미합니다.) 연구가 완료된 후 p- 값을 와 비교합니다.p < α 경우 귀무 가설을 기각합니다 . 그렇지 않으면 귀무 가설을 기각 할 수 없습니다. 어느 쪽이든, 학업은 완료되었으며 결정을 내 렸습니다.
Fisherian과 Neyman-Pearson 접근 방식은 동일하지 않습니다 . Neyman-Pearson 프레임 워크의 핵심 논쟁은 연구가 끝날 때 결정을 내리고 떠나야한다는 것입니다. 의심되는 바에 따르면, 한 연구원은 한 번 피의자에게 '무의미한'결과를 제시하여 자신이해야 할 일을 물었고 피셔는 '더 많은 데이터를 얻으십시오'라고 말했다.
개인적으로, 나는 Neyman-Pearson 접근법의 우아한 논리가 매우 매력적이라고 생각합니다. 그러나 나는 그것이 항상 적절하다고 생각하지 않습니다. 내 생각에 Neyman-Pearson 프레임 워크를 고려하기 전에 적어도 두 가지 조건을 충족해야합니다.
이러한 조건이 충족되지 않아도 p- 값은 여전히 Fisher의 아이디어와 일치하여 해석 될 수 있습니다. 또한, 대부분의 경우 이러한 조건이 충족되지 않는 것 같습니다. 다음은 테스트가 실행되지만 위의 조건이 충족되지 않는 몇 가지 쉬운 예입니다.
실용성은 보는 사람의 눈에 있지만
Fisher의 유의성 테스트는 데이터가 흥미로운 '신호'를 제안하는지 여부를 결정하는 방법으로 해석 될 수 있습니다. 귀무 가설 (Type I 오류 일 수 있음)을 거부하거나 아무 말도하지 않습니다. 예를 들어, 많은 현대적인 '오 믹스'애플리케이션에서이 해석은 적합합니다. 우리는 너무 많은 Type I 오류를 만들고 싶지 않지만 가장 흥미로운 신호를 꺼내고 싶지만 일부는 놓칠 수 있습니다.
Neyman-Pearson의 가설은 우리가 결정하는 두 가지 분리 된 대안 (예 : Higgs Boson이 존재하거나 존재하지 않는)이있을 때 의미가 있습니다. 제 1 종 오류의 위험뿐만 아니라 제 2 종 오류를 만들 수도 있습니다. 실제 신호가 있지만 '널'결정을 내릴 때 신호가 없다고 말합니다. NP의 주장은 너무 많은 제 1 종 오류율을 만들지 않으면 서 제 2 종 오류의 위험을 최소화하고자한다는 것입니다.
종종 어떤 시스템도 완벽하게 보이지 않을 것입니다. 예를 들어 포인트 추정치 및 해당 불확실성 측정 값을 원할 수도 있습니다. 또한 p- 값을보고하고 테스트 해석을 독자에게 맡기기 때문에 사용 하는 버전 이 중요하지 않을 수 있습니다. 그러나 위의 방법 중 하나를 선택하려면 유형 II 오류가 응용 프로그램과 관련이 있는지 여부를 식별하십시오.
요점은 철학적 차이를 무시할 수 없다는 것입니다. 통계의 수학적 절차는 기본 가설, 가정, 이론, 철학없이 적용 할 수있는 것만으로 독립된 것이 아닙니다.
즉, 빈번한 철학을 고집한다면 Neyman-Pearson이 실제로 고려해야 할 몇 가지 매우 특별한 문제가있을 수 있습니다. 그들은 모두 품질 관리 또는 fMRI와 같은 반복 테스트에 속합니다. 사전에 특정 알파를 설정하고 전체 유형 I, 유형 II 및 전력 프레임 워크를 고려하면 해당 설정에서 더 중요합니다.