귀하의 의견 때문에 두 개의 별도 섹션을 만들 것입니다.
p- 값
가설 검정에서 당신은에 대한 '통계적 증거'찾을 수있는 대안 가설을; 내가 귀무 가설을 기각하지 못하면 어떻게됩니까? 수학에서 '모순으로 증명'과 유사합니다.
따라서 '통계적 증거'를 찾으려면 반대라고 가정합니다 . 우리는 H 1 이라고 증명하기 위해 시도하는 것의 을 나타냅니다 . 그런 다음 표본을 추출하고 표본에서 소위 검정 통계량 (예 : t- 검정의 t- 값)을 계산합니다.H0H1
그런 다음, 이 참이고 우리의 표본이 H 0 아래 분포에서 무작위로 추출 된다고 가정 할 때 , 우리는 (랜덤) 표본에서 도출 된 값을 초과하거나 같은 값을 관찰 할 확률을 계산할 수 있습니다 . 이 확률을 p- 값이라고합니다.H0H0
이 값이``충분히 작습니다 '', 즉 우리가 선택한 유의 수준보다 작 으면 을 기각 하고 H 1 이 '통계적으로 입증 된' 것으로 간주합니다 .H0H1
이러한 방식으로 몇 가지 중요한 사항이 있습니다.
- 이 참 이라는 가정하에 확률을 도출했습니다H0
- 우리는 H 0 에서 가정 된 disrubtion에서 무작위 샘플을 가져 왔습니다.H0
- 우리는 결정 에 대한 증거를 발견하도록 랜덤 샘플로부터 유래 된 시험 통계가 초과되는 확률이 낮은 경우. 따라서 H 0 이 참일 때 초과되는 것이 불가능하지 않으며 ,이 경우 유형 I 오류가 발생합니다. H1H0
따라서 유형 I 오류는 무엇입니까? H 0 에서 무작위로 추출한 샘플 이 실제로는 사실이지만 H 0 은 거짓 이라는 결론으로 이어집니다 .H0H0
이는 p- 값이 제 1 종 오류 확률이 아니라는 것을 의미합니다 . 실제로, 유형 I 오류는 검정에 의한 잘못된 결정이며 결정은 p- 값을 선택된 유의 수준과 비교하여 만 이루어질 수 있으며, p- 값만으로는 결정을 내릴 수 없으며, 비교 후에 만 가능합니다. 결정이 이루어진 선택된 유의 수준에 대한 p- 값이며, 결정이 없는 한 제 1 종 오류도 정의되지 않습니다.
그렇다면 p- 값은 무엇입니까? 의 가능성이 잘못 거부 으로 인해 우리는 아래에 임의의 샘플을 그릴 수 있다는 사실이다 H 0 이 샘플을 그림으로써 우리가 '불운' '를 가지고 할 수 있도록,이'불운 ''리드 그 허위 불합격 H 0 . 따라서 p- 값 (완전히 정확하지는 않지만)은``나쁜 샘플 ''을 그릴 확률과 비슷합니다. p- 값의 올바른 해석은 검정 통계량이 H 0 에서 무작위로 추출 된 표본에서 파생 된 검정 통계량의 값을 초과 할 확률이라는 것입니다.H0H0H0H0
거짓 발견 률 (FDR)
위에서 설명한 것처럼 귀무 가설이 기각 될 때마다이를 대한 '통계 증거'로 간주합니다 . 그래서 우리는 새로운 과학적 지식을 찾았으므로이를 발견 이라고합니다 . 또한 유형 I 오류를 만들 때 잘못된 발견 (즉, H 0 거부)을 수행 할 수 있다고 위에서 설명했습니다 . 이 경우 우리는 과학적 진실에 대한 잘못된 믿음을 가지고 있습니다. 우리는 정말로 진실한 것을 발견하고 싶기 때문에 거짓 발견을 최소한으로 유지하려고 시도합니다. 즉, 제 1 종 오류를 통제합니다. 제 1 종 오류 확률이 선택된 유의 수준 α 임을 알기가 어렵지 않습니다 . 따라서 제 1 종 오류를 제어하기 위해 α를 수정합니다.H1H0αα``거짓 증거 ''를 기꺼이 수용하려는 수준을 반영합니다.
직관적으로, 이것은 우리가 많은 수의 샘플을 추출하고 각 샘플로 테스트를 수행하면 이러한 테스트 의 일부 가 잘못된 결론을 초래한다는 것을 의미합니다. 우리는 '많은 샘플에 대해 평균을 내고있다' 는 것에 주목하는 것이 중요하다 . 같은 테스트, 많은 샘플. α
동일한 샘플 을 사용하여 여러 가지 다른 테스트 를 수행 하는 경우 여러 테스트 오류가 발생합니다 ( 가족 별 오류 경계 에 대한 내 의견 : 독립 질문에 대한 다른 연구에서 데이터 세트를 재사용하면 여러 테스트 문제가 발생합니까? ). 이 경우 Bonferroni 보정과 같이 FWER (family-wise error rate) 을 제어하는 기술을 사용하여 팽창을 제어 할 수 있습니다 .α
FWER와 다른 접근 방식은 FDR (False Discovery Rate )을 제어하는 것 입니다. 이 경우 하나의 제어 모든 검색 중 오류가 발견 횟수 (FD) (D), 그래서 하나의 컨트롤 , D는 기각 된H0의 수입니다.에프디디H0
따라서 제 1 종 오류 확률 은 여러 샘플에서 동일한 테스트를 실행하는 것과 관련이 있습니다. 많은 수의 샘플의 경우, 제 1 종 오류 확률은 샘플 수로 수렴되어 잘못된 거부를 유도 한 총 샘플 수로 나눕니다 .
FDR은 동일한 샘플과 테스트는 의지의 거대한 수 많은 시험과 관련이있다 타입 I 오류가 만든 테스트의 수에 수렴 (즉, 거짓 발견의 수) 전체로의 거부의 수를 나누어 (즉, 총 발견 횟수)H0 .
위의 두 단락을 비교하십시오.
- 상황이 다릅니다. 하나의 테스트와 많은 샘플 대 많은 테스트와 하나의 샘플.
- 제 1 종 오류 확률을 계산하기위한 분모는 FDR을 계산하기위한 분모와 분명히 다릅니다. 분자는 어떤 식 으로든 비슷하지만 컨텍스트가 다릅니다.
FDR은 동일한 샘플에 대해 많은 테스트를 수행하고 1000 개의 발견 (예 : 거부 )을 찾은 후 FDR이 0.38 인 경우 0.38 × 1000 이된다고 알려줍니다.H00.38×1000 잘못된 발견 .
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
p – 값은 제 1 종 오류를 일으킬 수있는 선험적 확률, 즉 그것이 사실이라는 가정하에 귀무 가설을 기각 할 가능성을 나타냅니다.