나는 최근 링크드 인 블로그에 Neyman Pearson lemma를 명쾌하게 말하고 예제를 제공하는 글을 썼습니다. 나는 보조 정리에 대한 명확한 직감을 제공한다는 의미에서 눈을 뜨는 예를 발견했습니다. 확률 적으로 자주, 그것은 불연속 확률 질량 함수를 기반으로하므로 pdf로 작업 할 때보 다 쉽게 이해 할 수 있습니다. 또한 여러분의 정리 정리와는 달리 대안 가설 대 귀무 가설의 가능성으로 가능성 비율을 정의합니다. 설명은 동일하지만 지금보다 작습니다. 도움이되기를 바랍니다 ...
데이터 분석에 종사하고 일부 통계 과정을 거친 사람들은 Neyman-Pearson lemma (NP-lemma)를 알게 될 것입니다. 메시지는 간단합니다. 데모는 그리 많지는 않지만 항상 어려운 점은 그것이 무엇에 대한 상식적인 느낌을 얻는 것이 었습니다. PIGood과 JWHardin의 "통계 오류의 일반적인 오류"라는 책을 읽었습니다. 필자가 항상 놓친 NP-Lemma에 대해이 장의 느낌을 얻는 데 도움이되는 설명과 예를 얻었습니다.
수학적으로 완벽한 100 % 언어가 아니라, Neyman-Pearson이 우리에게 말하는 것은 특정 유의 수준 내에서 주어진 가설을 검증하기 위해 얻을 수있는 가장 강력한 테스트는 특정 임계 값을 초과 할 가능성 비율 ... 누가 쉬웠다 고 했어요!
침착 함을 유지하고 보조 정리를 해체하십시오.
- 가설 . 통계에서 하나는 항상 통계 테스트가 거부하거나 거부하지 않아야한다는 두 가지 가설로 작동합니다. 귀무 가설이 있으며 이에 대한 표본 증거가 충분히 강해질 때까지 기각되지 않습니다. 널 (null)이 거짓으로 보이는 경우 우리가 취할 대안 가설도 있습니다.
- 테스트의 전원 (일명 감도가) 잘못 때 우리는 귀무 가설을 거부 제대로되는 시간의 비율을 우리에게 알려줍니다. 우리는 강력한 테스트를 원하므로 대부분의 경우 우리가 옳은 귀무 가설을 기각합니다!
- 검정의 유의 수준 (일명 오 탐율)은 귀무 가설이 참일 때 어떤 비율로 잘못 배제 할 것인지를 알려줍니다. 우리는 작은 유의 수준을 원하므로 대부분의 경우 우리가 틀리지 않은 귀무 가설을 기각합니다!
- 거부 영역 에는 테스트의 모든 가능한 결과가 주어지면 대체 영역의 이점으로 귀무 가설을 기각하게하는 결과가 포함됩니다.
- 가능성 은 귀무 가설 (귀무 가설의 우도) 또는 대안 (대체 가설의 우도)이 참이라는 가정에서 검정의 결과를 볼 확률입니다.
- 우도 비율 은 대립 가설 우도를 귀무 가설 우도로 나눈 비율입니다. 귀무 가설이 다른 대립 가설에 해당하는 경우 검정 결과가 매우 많이 기대되는 경우 가능성 비율은 작아야합니다.
충분한 정의! (당신이 그들을주의 깊게 보면, 그들은 매우 통찰력이 있음을 알게 될 것입니다!). Neyman과 Pearson이 우리에게 말한 내용으로 넘어가십시오. 검정력의 관점에서 최상의 통계 테스트를 원한다면 가능성이 가장 높은 테스트 결과를 포함하여 거부 영역을 정의하고 테스트를 계속 추가하십시오. 귀무 가설이 참일 때 (중요 수준) 귀무 가설을 기각하는 횟수에 대해 특정 값에 도달 할 때까지 결과가 나타납니다.
희망적으로 모든 것이 함께 모이는 예를 보자. 예는 위에서 언급 한 책을 기반으로합니다. 그것은 완전히 스스로 구성되어 있기 때문에 현실이나 개인적인 의견을 반영하는 것으로 보아서는 안됩니다.
누군가가 자신의 감정을 유럽 연합과 비교하여 이민 할당량 (무 가설)을 설정하는 것에 찬성하는지 아닌지 (대립 가설)를 결정하려고한다고 상상해보십시오.
질문에 대한 답변과 관련하여 두 유형의 사람들에 대한 실제 확률 분포를 알고 있다고 상상해보십시오.
30 %의 가양 성 오류, 즉 귀무 가설을 기각하고 인터뷰 대상자가 할당량에 반한다고 가정하는 시간의 30 %를 기꺼이 수용한다고 가정 해 봅시다. 테스트는 어떻게 구성할까요?
Neyman과 Pearson에 따르면 우선 가능성이 가장 높은 결과를 얻습니다. 이것은 3의 비율로 "정말 EU와 같다"의 답입니다.이 결과, 누군가가 "정말 EU를 정말로 좋아한다고"말했을 때 할당량에 반대한다고 가정하면 할당 시간의 10 % 사람들에게 할당량에 대해 (의의). 그러나이 그룹의 모든 구성원이 EU에 대해 동일한 의견을 가지고 있지 않기 때문에 30 % (전력)의 할당량 사용자에 대해서만 올바르게 분류합니다.
권력에 관한 한 이것은 좋지 않은 결과 인 것 같습니다. 그러나이 테스트는 할당량 사람을 잘못 분류 할 때 많은 실수를하지 않습니다 (의의). 유의성에 대해보다 융통성이 있으므로 귀무 가설 (거부 영역)을 기각하는 답에 추가해야 할 다음 테스트 결과를 살펴 보겠습니다.
가능성이 가장 높은 다음 답변은 "EU와 같다"입니다. 할당량에 대한 누군가의 귀무 가설을 기각 할 수 있도록 EU를 "정말 유사"및 "유사"답변을 테스트 결과로 사용하면 할당량 사람들이 시간의 30 %가 아닌 할당량에 대해 잘못 분류 될 수 있습니다. "정말 좋아요"및 "좋아요"에서 20 %), 우리는 시간의 65 % ( "정말 좋아요"에서 30 %, "좋아요"에서 35 %)의 할당량을 올바르게 분류합니다. 통계 용어로 : 우리의 중요성은 10 %에서 30 % (나쁜!)로, 테스트의 힘은 30 %에서 65 % (좋은!)로 증가했습니다.
이것은 모든 통계 테스트가 갖는 상황입니다. 통계에서도 무료 점심과 같은 것은 없습니다! 테스트의 힘을 높이려면 유의 수준을 높이는 대신 비용을 지불해야합니다. 또는 더 간단한 용어로 : 좋은 사람들을 더 잘 분류하고 싶다면, 더 나쁜 사람들이 잘 보이도록 희생해야합니다!
기본적으로 이제 끝났습니다! 우리는 누군가가 할당량에 위배되는지 여부를 판단하기 위해 "정말 유사"및 "유사"레이블을 사용하여 주어진 데이터와 30 %의 유의 수준으로 가능한 가장 강력한 테스트를 만들었습니다. 확실합니까?
"정말 같은"답변을 선택한 후 "같은"대신 "무관심한"답변을 선택한 후 두 번째 단계에 포함 시키면 어떻게 되었습니까? 테스트의 중요성은 30 %에서 이전과 동일했을 것입니다. 할당량 사람들의 경우 10 %가 "정말"과 같고 할당량 사람들의 경우 20 %가 "싫어요"입니다. 두 테스트 모두 할당량 개인을 잘못 분류하는 데 좋지 않습니다. 그러나 힘은 더 나빠질 것입니다! 새로운 테스트를 통해 이전에 보유한 65 % 대신 50 %의 검정력을 갖습니다. "정말 좋아하는"의 30 %, "무의미한"의 20 %. 새로운 테스트를 통해 할당량 개인을 식별하는 데 정확도가 떨어집니다!
누가 도와 줬어요? Neyman-Person 우도 비율 놀라운 아이디어! 매번 가장 높은 가능성 비율의 답을 통해 우리는 새로운 테스트에 가능한 한 많은 힘 (큰 분자)을 포함시키면서 유의성을 제어하면서 (작은 분모) 포함시킬 수있었습니다!