10 분 이내에 십대들을위한 가설 테스트를 설명하는 방법?


18

1 년이 넘는 시간 동안 저는 1 시간 동안 "통계를위한 맛"수업을 제공하고 있습니다. 매번 다른 그룹의 아이들이 와서 수업을합니다.

이 수업의 주제는 우리가 코카콜라를 마시는 10 명의 아이들에게 코카콜라와 펩시를 가진 두 개의 (표시되지 않은) 컵을주는 실험을 운영한다는 것입니다. 아이들은 맛과 냄새에 따라 코카콜라 음료가 들어있는 컵을 감지해야합니다.

그런 다음 아이들이 추측하고 있는지, 아니면 (또는 적어도 그들 중 충분한 것으로) 차이를 맛볼 수 있는지 결정하는 방법을 그들에게 설명해야합니다. 10 개 중 10 개 성공이 충분합니까? 10 점 중 7 점은?

이 수업을 수십 번 (서로 다른 변형으로) 제공 한 후에도 여전히 대부분의 수업에서 얻을 수있는 방식으로 개념을 이해하는 방법을 모르겠습니다.

가설 검정, 귀무 가설, 대립 가설, 기각 영역 등의 개념을 단순하고 직관적 인 방법 으로 설명 할 수있는 방법에 대한 아이디어가있는 경우 방법 을 알고 싶습니다.


1
때때로 "왜"에 대한 생각은 "방법"에 대한 이해를 높이는 데 도움이되므로 stats.stackexchange.com/questions/6966/…를
Tim

5
(+1) 10 분 의 정의가 무엇인지에 달려 있다고 생각합니다 !
추기경

1
몇 주 전에 나는 stats.stackexchange.com/a/130772 에서이 질문에 답하거나 적어도 그와 비슷한 질문에 대답했습니다 . 그 스레드가이 스레드와 중복되지 않습니까?
whuber

1
@ cardinal-말 그대로 10 분을 의미합니다. 이러한 유형의 주제와 배경이없는 사람들을 위해-이것은 매우 짧은 시간입니다. --------------- 친애하는 whuber-나는 당신의 대답을 좋아했지만 확률과 밀도와 면적 사이의 관계가 무엇인지 아는 학생들에게는 좋을 것입니다. 이것들은 학생들에게 가르치는 개념이지만 고등학생에게는 아닙니다. 나는 그들이 가설 검정을 완전히 이해하기를 원하지 않지만 각 거부 영역이 무엇을 의미하는지에 대한 결정을 내릴 수 있도록 충분한 가설을 유지하기를 원합니다.
탈 Galili

4
설명해 주셔서 감사합니다, 탈 다른 스레드가 귀하의 질문과 중복됨을 나타내는 것으로 보이지만 적절한 답변을 보지 못했습니다. 귀하의 질문을 다른 질문과 차별화하는 좋은 방법은 귀하가 귀하의 의견에서 시작한 것처럼, 노출 수준과 청중이 알고있는 것으로 가정 할 수있는 특정 요구 사항을 제공하는 것입니다.
whuber

답변:


10

코카콜라와 펩시의 차이를 말할 수있는 사람에 대해 말하는 것이 실제로 무엇을 의미하는지 물어보아야합니다. 그러한 사람은 다른 사람들이 할 수없는 일을 할 수 있습니까?

그들 중 대부분은 그러한 정의를 갖지 않을 것이며, 요청을 받으면 그것을 만들 수 없습니다. 그러나이 문구의 의미는 통계가 우리에게주는 것입니다. 이것이 바로 "통계의 맛"수업과 함께 가져올 수있는 것입니다.

통계의 요점 중 하나는 질문에 대한 정확한 답변을 제공하는 것입니다.

정답은 다음과 같습니다. 블라인드 테스트에서 컵을 분류하는 것은 추측 머신보다 낫습니다. 추측 기계는 차이를 알 수 없으며 단순히 항상 추측합니다. 추측 머신은 능력 이 없다는 것을 알고 있기 때문에 우리에게 유용한 발명품입니다 . 추측 기의 결과는 테스트 할 능력이없는 사람에게 기대할 수있는 것을 보여주기 때문에 유용합니다.

코카콜라와 펩시의 차이를 알 수 있는지 여부를 테스트하려면 맹검 테스트에서 컵의 분류와 추측 기계의 분류를 비교해야합니다. 추측 기계보다 더 나은 경우에만 차이를 알 수 있습니다.

그러면 한 결과가 다른 결과보다 나은지 어떻게 알 수 있습니까? 그들이 거의 같은 경우?

두 사람이 적은 수의 컵을 분류한다면, 결과가 거의 같다 면 한 컵이 다른 컵보다 낫다고 말하는 것은 불공평합니다 . 아마도 우승자는 오늘 운이 좋았고 내일 경기가 반복된다면 결과가 바뀌었을까요?

신뢰할 수있는 결과를 얻으려면 적은 수의 분류를 기반으로 할 수 없습니다. 기회가 결과를 결정할 수 있기 때문입니다. 당신이 능력을 갖기 위해 완벽 할 필요는 없으며 단지 추측 머신보다 더 우수해야한다는 것을 기억하십시오. 실제로, 분류의 수가 너무 적 으면, 항상 코카콜라를 정확하게 식별하는 사람조차도 추측 기계보다 우수하다는 것을 보여줄 수 없을 것이다. 예를 들어 분류 할 컵이 하나 뿐인 경우 추측 기조차도 50 %의 확률로 완벽하게 분류 할 수 있습니다. 시험의 50 %에서 좋은 코카콜라 식별자가 추측 기보다 나쁘지 않다는 잘못된 결론을 내릴 수 있기 때문에 좋지 않습니다. 매우 불공평합니다.

분류 할 컵이 많을수록 추측 기의 기능을 밝힐 수없는 기회가 많아지고 코카콜라의 좋은 식별자가 나타날 수있는 기회가 많아집니다.

10 컵은 시작하기에 좋은 장소 일 수 있습니다. 그러면 인간은 기계보다 낫다는 것을 얼마나 많은 정답을 보여 주어야합니까?

그들이 무엇을 추측할지 물어보십시오.

그런 다음 기계를 사용하여 기계가 얼마나 좋은지 알아 봅니다. 예를 들어 모든 학생이 일련의 10 가지 추측을하도록합니다. 스마트 폰에서 주사위 또는 무작위 생성기를 사용합니다. 교육학을 위해서는 추측을 평가할 일련의 10 가지 정답을 준비해야합니다.

모든 결과를 칠판에 기록한다. 정렬 된 결과를 칠판에 인쇄하십시오. 통계학자가 코카콜라와 펩시의 차이를 구별 할 수있는 능력을 인정하기 전에 인간은 그 결과의 95 % 이상이어야한다고 설명한다. 95 % 최악의 결과를 상위 5 % 결과와 구분하는 선을 그립니다.

그런 다음 몇 명의 학생들이 10 컵을 분류 해 보도록하십시오. 이제 학생들은 차이를 말할 수 있다는 것을 증명하기 위해 얼마나 많은 권리가 필요한지 알아야합니다.

이 모든 것이 10 분 안에 실제로 가능하지는 않습니다.


2
고마워 한스. 나는 몇 가지 이유로 당신의 대답을 좋아합니다. 1) "아이들이 추측 기와 경쟁하게하는"새로운 아이디어를 테이블에 가져 오기 때문입니다. 나는 그 생각이 내 마음을 넘어 섰음을 인정하지만, 당신의 대답은 이것이 귀무 가설의 이론적 분포 p = .5와 경쟁하게하는 것보다 더 효과적 일 수 있다는 나의 의견을 강화시킨다. 2) 당신이 제안한 모든 것이 10 분 만에 가능한 것은 아니라는 것을 이해하기 때문에 :)
Tal Galili

2
고마워 탈. a) 추측 기는 이론적 분포보다 훨씬 직관적이라고 생각합니다. b) 가설 검정을 위해 10 분 이상 여유를 가질 수 있기를 바랍니다.
Hans Ekbrand

왜 95 %, 하하?
Mark L. Stone

2

소다로 작업하는 것은 재미 있고 가설 검정에 대한 합리적인 지식이 있으면 십대들이 실제로 소다의 차이를 알 수 있는지 여부를 테스트하는 것이 합리적입니다. 문제는 다음과 같은 질문 일 수 있습니다. "실제로 소다의 차이를 말할 수 있습니까?" "소다를 테스트하는 데 누가 좋고 누가 나쁜가?"와 같이 십대의 마음에는 다른 많은 것들이 복잡합니다. "소다 사이에 실제로 차이가 있습니까?"

나는 십대 통계를 가르친 적이 없지만 항상로드 된 주사위 또는 편견 동전을 사용하는 것에 대해 환상을 가지고 있습니다. 더 흥미롭지 만 통계적으로 더 어려운 죽습니다. 동전 예에서 동전은 공정하거나 불공평합니다. 동전 뒤집기에 능숙하지 않습니다. 머리인지 꼬리인지는 결정할 수 없습니다.

우리가 $ 100를이기는 사람을 위해 동전을 뒤집어두면 머리가 나옵니다 (당신이 이겼습니다!). "아 그래? 증명 해봐." 상당히 확실한 해결책은 동전을 뒤집어 뒤집어 꼬리보다 더 많은 머리가 나오는지 확인하는 것입니다. 우리는 그것을 뒤집어 놓았습니다. "아하! 나는 말한다. 보라! 머리쪽으로 편향되어있다!" 등등.

좋은 바이어스 동전은 존재하지 않지만 바이어스 주사위는 존재합니다. 아마존에서 구입할 수 있습니다. 학생들이 몇 번의 롤에서 이길 수 있다면 학생들에게 상을 줄 수 있습니다. 그러나 당신은 당신이 이길 것이라는 것을 알고 있습니다. 그들은 화를 낼 것입니다. 당신은이 주사위가 95 %의 신뢰로 편향되어 있음을 증명할 수 있다면 상을 줄 것입니다.

그런 다음 소다로 이동하십시오. 상금은 소다 파티 일 수도 있습니다! "이봐, 너희들이 콜라와 펩시의 차이를 말할 수 있는지 궁금해 ..."


6
" 코인을 뒤집는 데 능숙하지 않습니다. "-Persi Diaconis의 플립 헤드를 마음대로 본 적이 있다고 생각합니다.
Glen_b-복지 주 모니카

하아. 이제 나는 그것을 잘하려고 노력할 것입니다!
tim.farkas

1
Diaconis는 통계 학자이자 마술사입니다. 유튜브에서 그를 시연하는 비디오가있다.
Glen_b-복지 주 모니카

안녕 팀. 당신은 좋은 점을 가지고 있지만, 그들은 내 질문을 직접적으로 다루지 않습니다. 학생들이 10 가지 테스트 중 x 번을 제대로 받았다고 가정하면 (테스트는 취향에 따라 올바른 브랜드를 선택합니다)-결정을 내리는 것이 왜 좋은지 나쁜지를 어떻게 설명 할 수 있습니까?
탈 Galili

다시 동전 뒤집기를 사용할 수 있습니다. 그들이 하나의 취향을 가지고 그것을 올바르게 얻는다면, 그것은 매우 설득력이 없습니다. 동전을 뒤집 으면 50 %의 시간이 맞아야하기 때문입니다! 두 번 맞으면 우연히 얻을 확률은 두 머리를 뒤집는 것과 같습니다 = .5 * .5 = .25. 3 번 연속으로 .125, 4는 .0625, 5는 .0313입니다. 원하는 신뢰 수준을 선택해야합니다. 50 % 확실합니까? 약 25 %? 피셔 부사장은 95 % 확신하면 충분하며 많은 과학자들이 사용하고 있다고 말합니다. 이를 기술적으로 사인 테스트라고합니다. 아래를 참조하십시오.
tim.farkas

2

배럴 방향으로 펠렛의 버스트를 쏘는 샷건으로 목표 연습을하는 사람을 고려하십시오.

Null Hypothesis : 나는 좋은 슈팅 게임이고 내 배럴은 완벽하게 목표물에 있습니다. 왼쪽이 아니라 오른쪽이 아니라 똑바로 있습니다. 내 오류는 0입니다.

대체 가설 : 나는 나쁜 사수이고, 내 배럴은 목표에서 벗어났습니다. 대상의 왼쪽 또는 오른쪽. 내 오류는 e> 0 또는 e <0입니다.

모든 측정에는 특정 평균 오차 (예 : 표준 오차)가 있으므로, 똑바로 촬영하더라도 "타겟 오프"라고 표시된 측정이 가능합니다. 나는 당신이 나에게 나쁜 저격수라고 부르고 대체 가설을 선택하기 전에 특정 횟수만큼 내 목표물을 (적어도, 각 샷이 파열 / 확산되는 경우에도) "타격"할 필요가 없습니다.


1
이력서에 오신 것을 환영합니다. 설명을 널 (null) 및 대안과 연관시킬 수 있습니까? 아마도 몇 가지 추가 토론이 동기 부여에 도움이 될 수 있습니다. 이 설명이 적합하지 않은 몇 가지 널 (null) 및 대안도 있습니다.이 설명에 적합한 설명이 될 수있는 가설을 언급해야 할 수도 있습니다 (예 : point-null, two-tailed)
Glen_b -Reinstate Monica

1

아이들이 그 차이를 말하고 우연히 결정할 수 없다고 가정하십시오. 그런 다음 각 어린이는 50 %의 확률로 추측 할 수 있습니다. 따라서이 경우 5 명의 아이들이 올바르게하고 5 명의 아이들이 잘못 할 것으로 기대합니다 (예상 값). 물론 우연히도 6 명의 아이들이 잘못하고 4 명이 올바르게 처리하는 것도 가능합니다. 반대로, 아이들이 차이를 말할 수 있다고해도 우연히 그들 중 하나가 잘못했을 가능성이 있습니다.

직관적으로 아이들이 우연히 추측하면 모든 아이들이 정답을주는 것이 불가능하다는 것은 분명 합니다 . 이 경우에는 아이들이 실제로 두 음료의 차이를 맛볼 수 있다고 생각합니다. 다시 말해, 우리는 불가능한 사건이 관찰 될 것으로 기대하지 않습니다. 따라서 50-50 스캔에서 불가능한 사건을 관찰하면이 시나리오가 거짓이며 아이들이 콜라와 펩시를 구별 할 수 있다고 생각합니다.

αα0.00098αα=0.05

(모든 아이들이 올바르게 추측)=0.00098(한 아이 만 콜라와 펩시를 혼동합니다)=0.01074(두 아이 만 혼동)=0.05468

이것은 실험을 수행하는 순간입니다. 두 번째 오류 후에 멈출 수 있다고 계산 했더라도 10 명의 학생 모두에게 철저히 수행하십시오. 그런 다음 결과를 기록하고 유지하십시오. 메타 분석을 설명하려면 결과가 필요합니다.

(이유로, 역사적 예는 우유 나 차를 컵에 먼저 부 었는지 시음하는 것입니다. 차 시음 레이디.)


0

내가 본 가설 검정에 대한 가장 직관적 인 설명 인이 비디오를 보여주십시오-https://www.youtube.com/watch?v= UApFKiK4Hi8


0

콜라 시음 어린이 실험은 레이디 시음 차 실험에서 볼 수 있듯이 가설 테스트를 도입하는 좋은 예입니다. 그러나 귀무 가설에 p = 0.5의 이항 분포가 수반되고 간단하지 않기 때문에 이러한 실험을 평가하는 것은 그리 직관적이지 않습니다.

가설 검정에 대한 일반적인 소개에서, 이항 분포에서 모든 성공 사례 만 사용하여이 단점을 극복하려고 시도합니다. 이항 분포에서는 이항 확률에 대해 모르는 사람들도 확률을 p ^ n으로 계산할 수 있습니다.

내가 가장 좋아하는 예에서 나는 구운 밤을 좋아하고 노점상에서 소수를 구입합니다. 나는 밤의 10 %가 벌레 구멍이있는 큰 가방에서 왔기 때문에 할인 된 가격으로 얻습니다. 여기서 나는 가방이 잘 섞여서 소수의 밤이 밤의 무작위 샘플임을 분명히하려고합니다. 백과 공급 업체의 설명에 따르면 모든 밤에는 웜홀이있을 확률이 10 %입니다.

구운 밤을 즐기기 시작할 때마다 하나씩 먹어 벌레 구멍이 있는지 확인합니다.

첫 번째 밤을 확인할 때 웜홀이 보이고 공급 업체가 나에게 거짓말했는지 궁금합니다. 여기에서 귀무 가설 p = 10 % 및 대립 가설 p> 10 %를 설정하는 것이 궁금합니다. 칠판에 하나에서 나쁜 밤을 얻었을 때 p = 10 %라는 것을 의심 할만한 이유가 있습니까? 같은 실험을하는 사람들의 10 %가 같은 결과를 얻었을뿐입니다.

그런 다음 두 번째 밤을 가져 가면 웜홀도 있습니다. 벤더가 나에게 거짓말을하지 않았다면 둘 중 두 개는 확률이 1 %에 불과합니다. 나는 운이 좋지 않았지만 벤더에 대해 매우 의심스러워합니다.

세 번째 밤에도 벌레 구멍이 있습니다. 공급 업체가 공정하고 p = 10 %라고 가정 할 때 3 가지 중 벌레가있는 3 개의 밤을 얻는 것은 불가능하지는 않지만 매우 가능성이 낮습니다 (확률 = 0.1 %). 따라서 이제 공급 업체의 작업에 대해 의심 할만한 강력한 이유가 있으며 불만을 제기하고 환불을 요청합니다.

물론 이런 종류의 연속 테스트에는 이론적 인 문제가 있지만 가설 테스트의 아이디어를 보여주는 것은 중요하지 않습니다. 실제로,이 예제에서 다루지 않은 가장 중요한 아이디어는 가설 테스트에서 우리가 얻을 수있는 결과의 확률 또는 더 나쁜 결과를 계산한다는 것입니다. 내 예제에서는 최악의 결과를 얻음으로써 피할 수있었습니다.

나는 여전히 기술적으로 십대 인 대학의 신입생들과 함께이 예를 여러 번 사용했지만 어린 십대들과도 잘 어울릴 수 있다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.