분류에서와 같이 0.5 수준이 아닌 0.05 수준에서 귀무 가설을 기각하는 이유


11

가설 검정은 분류 문제와 유사합니다. 즉, 우리는 유죄 대 비 유죄 관찰에 대한 두 가지 가능한 레이블이 있습니다. 비 유죄를 귀무 가설로 삼으십시오. 분류 관점에서 문제를 본다면 데이터를 고려하여 두 분류에 속하는 주제의 확률을 예측하는 분류기를 훈련시킬 것입니다. 그런 다음 확률이 가장 높은 클래스를 선택합니다. 이 경우 0.5 확률이 자연 임계 값이됩니다. False Positive vs. False Negative 오류에 다른 비용을 할당 한 경우 임계 값을 변경할 수 있습니다. 그러나 임계 값을 0.05로 설정하는 것만 큼 극단적으로 진행되는 경우는 거의 없습니다. 즉, 확률이 0.95 이상인 경우에만 클래스를 "Guilty"에 할당합니다. 하지만 내가 잘 이해한다면 이것이 우리가 가설 검정의 문제와 같은 문제를 볼 때 우리가 표준 관행으로하는 일입니다. 후자의 경우, "Guilty"레이블 지정과 동등한 "Non-Guilty"레이블은 "Non-Guilty"일 가능성이 5 % 미만인 경우에만 지정하지 않습니다. 그리고 만약 우리가 진실로 무고한 사람들을 유죄하는 것을 피하고 싶다면 이것이 의미가있을 것입니다. 그러나 왜이 규칙이 모든 도메인과 모든 경우에 우선해야합니까?

채택 할 가설을 결정하는 것은 데이터가 주어진 진실의 평가자를 정의하는 것과 같습니다. 최대 가능성 추정에서 우리는 데이터가 주어질 가능성이 높은 가설을 받아들입니다. 아래 그래프를 참조하십시오 :

여기에 이미지 설명을 입력하십시오

최대 우도 접근 방식을 사용하면 예측 변수의 값이 3보다 큰 경우 (예 : 4),이 값의 귀무 가설에서 도출 된 확률이 0.05보다 클 경우이 예에서는 대립 가설을 선호합니다.

그리고 제가 글을 시작한 예는 아마도 감정적으로 고발 될 것이지만, 우리는 기술 향상과 같은 다른 경우를 생각할 수 있습니다. 데이터에서 새로운 솔루션이 개선 될 확률이 그렇지 않을 확률보다 크다고 말할 때 Status Quo에 이러한 이점을 제공해야하는 이유는 무엇입니까?


1
본질적으로 그것은 과학적인 도구로서 통계에 대한 RA Fisher의 견해 (한 번에 하나의 가설을 믿으며, 이에 대한 충분한 증거가있을 때까지)와 표준 편차가 귀무 가설을 너무 자주 거부하는 것 사이에 유용한 균형을 제공하는 것으로 보인다는 그의 경험에 근거 합니다. 충분하지 않다2
Henry

1
OP는 전제에 결함이 있음을 알 수 있습니다. 고전적인 NHST 절차에는 5 %를 거부 해야하는 것이 없습니다. 이것은 논쟁의 여지가있는 문화적 현상입니다.
Matthew Drury

1
@Matthew 드 루리는 "농구 팀을 위해 키가 큰 사람을 선택"전략으로 결함이되지 않는 단지 가 포함되어 있지 않기 때문에 키가 얼마나 정확한 규칙이있다. 아시다시피, 다른 문제가 많이 있지만 사용자가 선을 그릴 위치를 선택하도록하는 것은 NHST의 특징 일 것입니다. 위험에 대한 나의 혐오감은 최근 파리나 런던으로의 여행을 배제하지는 않았지만 많은 국가를 방문하는 것을 배제 할 것입니다. 나는 다른 집단이 가설을 기각 할시기에 대해 다른 협약을 가지고있는 한 문화 현상이 있음에 동의한다.
닉 콕스

내 의견 Nick이 무엇을 읽고 있는지 잘 모르겠습니다. 나는 더 분명 했어야한다고 생각한다. 나는 사람들이 문제 특정 임계 값을 설정하는 데 더 많은 생각을하기를 바랍니다.
Matthew Drury

NHST는 특정 거부 수준을 암시하지 않기 때문에 결함이 있다고 말하는 것 같습니다. 문제 별 임계 값에 대해 동의합니다.
Nick Cox

답변:


17

당신이 법정에 들어가서 그렇게하지 않았다고 가정 해보십시오. 여전히 유죄 판결을받을 확률이 50 %라는 것이 공평하다고 생각하십니까? 50 %의 무죄가 " 합리적 의심 이상의 유죄"일 가능성이 있습니까? 비록 그렇게하지 않더라도 유죄 판결을받을 확률이 5 %라는 것이 공정하다고 생각하십니까? 내가 법정에 있었다면 5 %가 충분히 보수적이지 않다고 생각할 것입니다.

5 %는 임의적입니다. 우리는 2 % 또는 1 %를 선택할 수도 있고, nerdy % 또는 %를 선택할 수도 있습니다 . 10 %를 기꺼이 받아 들일 사람들이 있지만 50 %는 결코 받아 들여지지 않을 것입니다.eπe


질문 편집에 대한 답변 :

모든 가설이 동일하게 만들어 졌다면 당신의 아이디어는 합리적입니다. 그러나 그렇지 않습니다. 우리는 일반적으로 대립 가설에 관심이 있으므로 낮은 선택하면 논증을 강화합니다 . 그런 의미에서, 당신이 선택한 예제는 그 점을 잘 보여줍니다.α


6
+1 "5 %는 임의입니다". 학계의 통계 학자 : "우리는 가르치는 것이 업계에서 사용하기 때문입니다." 업계 통계 학자 : "우리는 왜냐하면 그것이 우리가 대학에서 가르친 것이기 때문입니다." α = 0.05α=0.05α=0.05
knrumsey

8

그것은 당신이 말하는 것과 같습니다-그것은 False Positive와 False Negative 오류가 얼마나 중요한지에 달려 있습니다.

Maarten Buis가 이미 대답했듯이, 귀하가 결백 할 확률이 50 % 인 경우 유죄 판결을받는 것은 귀하가 사용하는 예에서 거의 공평하지 않습니다.

연구에 적용 할 때 다음과 같이 살펴보십시오. 특정 새로운 약물이 특정 질병에 도움이되는지 알고 싶다고 상상해보십시오. 치료에 유리한 치료 그룹과 대조 그룹의 차이를 발견했다고 가정하십시오. 큰! 약은 효과가 있어야합니까? 약물이 효과가 없다는 귀무 가설을 기각 할 수 있습니다. 귀하의 P는 - 값은 0.49입니다! 당신이 찾은 효과가 우연이 아닌 진실에 기초했을 가능성이 더 높습니다!
이제 이것을 고려하십시오 : 약물에는 심한 부작용이 있습니다. 작동한다고 확신하는 경우에만 가져 가려고합니다. 그리고 당신은? 아닙니다. 두 그룹간에 발견 된 차이가 순전히 우연 일 가능성이 여전히 51 %이기 때문입니다.

예를 들어 10 %에 만족하는 도메인이 있다고 상상할 수 있습니다. 10 %가 허용되는 기사를 보았습니다. 또한 2 %를 선택한 기사를 보았습니다. 귀무 가설을 기각하는 것은 우연이 아닌 진실에 근거 할 것이라고 확신하는 것이 얼마나 중요한가에 달려 있습니다. 당신이 찾은 차이가 순수한 운에 근거한 50 %의 확률에 만족하는 상황은 거의 상상할 수 없습니다.


5

다른 답변은 모든 가능한 오류를 상대적으로 소중하게 평가하는 방법에 달려 있으며 과학적 맥락에서 는 잠재적으로 상당히 합리적이며 엄격한 기준도 잠재적으로 매우 합리적이지만 은 가능성이 낮습니다. 합리적이다. 그것은 모두 사실이지만, 이것을 다른 방향으로 취해 질문 뒤에 놓인 가정에 이의를 제기하겠습니다. .50.05.50


"분류 문제와 유사한 가설 검정"을 사용합니다. 여기서 명백한 유사점은 피상적 일뿐입니다. 의미있는 의미에서는 사실이 아닙니다.

이진 분류 문제에는 실제로 두 개의 클래스가 있습니다. 그것은 절대적이고 사전에 확립 될 수 있습니다. 가설 테스트는 그렇지 않습니다. Stats 101 클래스의 검정력 분석 또는 가설 검정 논리를 설명하기 위해 종종 그림에 귀무 가설과 대립 가설이 표시됩니다. 이 그림은 하나의 귀무 가설과 하나의 대립 가설 이 있음을 의미합니다 . 널이 하나만 있다는 것이 (보통) 사실이지만, 대안은 (예를 들어) 평균 차이의 단일 포인트 값으로 고정되지 않습니다. 연구를 계획 할 때 연구자들은 종종 탐지하고자하는 최소값을 선택합니다. 특정 연구에서 의 평균 이동이라고 가정 해 봅시다..67.67SD. 그래서 그들은 그에 따라 연구를 디자인하고 강화합니다. 이제 결과는 의미가 있지만 은 가능한 값으로 보이지 않습니다. 글쎄, 그들은 그냥 걸어 가지 않습니다! 그럼에도 불구하고 연구진은 치료법이 차이를 만든다고 결론을 내렸지 만 결과의 해석에 따라 효과의 크기에 대한 그들의 믿음을 조정했다. 여러 연구가있는 경우 메타 분석은 데이터가 누적 될 때 실제 효과를 개선하는 데 도움이됩니다. 다시 말해, 연구 계획 중에 제시된 (그리고 당신의 그림에 그려지는) 대안은 연구자들이 유일한 옵션으로 그것과 널 사이에서 선택해야하는 유일한 대안이 아닙니다. .67

이것에 대해 다른 방법으로 봅시다. 귀무 가설이 참인지 거짓인지 매우 간단하다고 말할 수 있으므로 실제로 두 가지 가능성이 있습니다. 그러나 널 (NULL)은 일반적으로 점 값 (viz., )이며 널 (null)이 false는 단순히 이 아닌 다른 값이 참 값임을 의미합니다. 점에 너비가없는 것을 기억하면 본질적으로 수선의 는 대안이 참인 것에 해당합니다. 사용자의 관찰 결과가 아닌 즉, (즉, 제로 무한 소수점까지)하여 결과적으로 일부 비 가깝게하는 것 그것으로보다 값 (즉,0 100 % 0 ˉ 0 0 0 P < 0.500100%0.0¯00p<.5). 결과적으로 항상 귀무 가설이 거짓이라는 결론을 내립니다. 이것을 명시 적으로 표현하기 위해 귀하의 질문에 잘못된 전제는 귀하의 제안대로 사용할 수있는 하나의 의미있는 파란색 선 (그림에 묘사 된)이 있다는 것입니다.

그러나 위의 경우가 항상 그런 것은 아닙니다. 때로는 정확한 점 추정치와 샘플링 분포를 산출하기 위해 이론이 충분히 수학화되는 현상에 대해 다른 예측을하는 두 가지 이론이 있습니다. 그런 다음 이들을 구별하기 위해 중요한 실험 을 고안 할 수 있습니다. 그러한 경우, 이론은 모두 널로 간주 될 필요가 없으며 우도 비는 하나 또는 다른 이론을 선호하는 증거의 가중치로 간주 될 수 없습니다. 이 사용법은 알파 를 으로 하는 것과 비슷합니다 . 이 시나리오가 과학에서 가장 일반적인 시나리오가 될 수없는 이론적 인 이유는 없으며, 현재 대부분의 분야에서 그러한 이론이 두 개 존재하는 경우는 매우 드 just니다. .50


3

아주 좋은 이전 답변에 추가하려면 : 예, 5 %는 임의적이지만 선택한 특정 임계 값에 관계없이 합리적으로 작아야합니다. 그렇지 않으면 가설 검정은 의미가 없습니다.

효과를 찾고 있으며 결과가 순전히 우연이 아닌지 확인하려고합니다. 그 정도까지, 당신 은 기본적으로 "실제로 효과가 없다면 (널 가설이 사실이라면) 순수한 결과에 의해 그러한 결과를 얻을 가능성이 더 높습니다" 라고 말하는 유의 수준 을 설정합니다 . 이 값을 너무 높게 설정하면 많은 오탐 (false positive)이 발생하고 연구 질문에 대한 의미있는 답변을 얻는 능력이 저하됩니다.

언제나 그렇듯이 트레이드 오프가 수반되므로 연구 커뮤니티는이 5 % 지침을 마련했습니다. 그러나 그것은 다른 분야에서 다릅니다. 입자 물리학에서는 0.00001 % 또는 그와 비슷합니다.


0

분류 및 가설 검정은 다르며 다르게 사용되었습니다 . 대부분의 경우 사람들은

  • "분류"는 "공유 품질 또는 특성에 따라 무언가를 분류"하는 작업을 수행합니다.
  • "가설 테스트"를 사용하여 "중요한 발견"을 확인하십시오.

가설 검정에서 "널 가설"은 "상식"이지만, 귀무 가설을 기각 할 수 있으면 중단됩니다.

이것이 우리가 가설 검정에서 더 엄격한 기준을 갖는 이유입니다. 새로운 항력 개발의 예를 생각해 보자.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.