통계 테스트에서 p 값과 t 값의 의미는 무엇입니까?


246

통계 과정을 밟고 동료 학생들을 돕기 위해 노력한 후, 많은 헤드 데스크 뱅킹에 영감을주는 한 가지 주제가 통계적 가설 검정의 결과를 해석하고 있음을 발견했습니다. 학생들은 주어진 시험에 필요한 계산을 수행하는 방법을 쉽게 배우지 만 결과 해석에 매달리는 것 같습니다. 많은 전산화 도구는 "p 값"또는 "t 값"으로 테스트 결과를보고합니다.

통계에서 첫 번째 코스를 수강하는 대학생들에게 다음 사항을 어떻게 설명 하시겠습니까?

  • "p- 값"은 테스트중인 가설과 관련하여 무엇을 의미합니까? 높은 p- 값 또는 낮은 p- 값을 찾아야하는 경우가 있습니까?

  • p- 값과 t- 값의 관계는 무엇입니까?


11
이것의 상당 부분은 기본적으로 p 값 에 대한 wikipedia 기사의 첫 번째 문장으로 덮여 있으며 p 값 을 올바르게 정의합니다. 그것이 이해된다면, 많은 것이 분명해진다.
Glen_b

1
눈물없는 통계 : 그것은 당신의 정신을 구할 수 있습니다!

7
@ user48700 눈물없는 통계가 이를 설명 하는 방법을 요약 할 수 있습니까?
Matt Krause

5
누군가 시간이 지남에 따라 p- 값 관련 질문에 대한 그래프를 그려야하며, 대학 또는 Coursera 데이터 과학 수업의 계절별 및 학사 일정과의 상관 관계를 볼 것입니다
Aksakal

답변과 의견에서 다른 훌륭하고 관련성이있는 책 추천 외에도 "어쨌든 p- 값은 무엇입니까?" 라는 다른 책을 제안하고 싶습니다. .
Aleksandr Blekh

답변:


150

값 이해p

대학에서 남학생의 평균 키가 피트 인치 라는 가설을 검정한다고 가정합니다 . 당신의 높이 수집 무작위로 선택한 학생들과 표본 평균을 계산 (가 밝혀 말 피트 인치). 적절한 공식 / 통계 루틴을 사용 하여 가설 의 값을 계산하고 합니다.7 100 5 9 P 0.065710059p0.06

적절히 해석 하려면 몇 가지 사항을 명심해야합니다.p=0.06

  1. 고전 가설 테스트의 첫 단계는 고려중인 가설이 참이라는 가정입니다. (우리의 맥락에서, 우리는 실제 평균 높이가 ft 인치 라고 가정합니다 .)757

  2. 다음과 같은 계산을 상상해보십시오. 가설이 실제로 정확하다고 가정 할 때 표본 평균이 피트 인치 보다 클 확률을 계산 하십시오 (포인트 1 참조).959

다시 말해

P(Samplemean5ft9inches|Truevalue=5ft7inches).

2 단계의 계산을 값 이라고합니다 . 따라서 값이 이면 실험을 여러 번 반복하면 (각각 명의 학생을 무작위로 선택 하고 표본 평균을 계산할 때마다) 번 중 번은 표본을 볼 수 있습니다. 이상인 평균 피트 인치.P 0.06 100 6 100 5 9pp0.06100610059

위의 이해를 감안할 때 여전히 가설이 참이라는 가정을 유지해야합니까 (1 단계 참조)? 음, 두 가지 중 하나가 발생했음을 나타냅니다 :p=0.06

  • (A) 우리의 가설이 정확하고 극히 드물게 발생하는 사건이 발생했습니다 (예 : 명 모두 학생 운동 선수)100

또는

  • (B) 우리의 가정은 부정확하고 우리가 얻은 표본은 그렇게 이례적이지 않다.

(A)와 (B) 중에서 선택하는 전통적인 방법은 대한 임의 컷오프를 선택하는 것 입니다. 우리는 선택 (A)의 경우 와 (B)의 경우 .p > 0.05 p < 0.05pp>0.05p<0.05


3
천천히하세요! 나는 일주일 정도 동안 "최고의 답변"을 선택하는 것에 대해 생각하지 않을 것입니다.
Sharpie

1
이제 돌아와서 전체 답을 읽을 수있는 기회가 생겼습니다. 학생의 키 예제에 대해 큰 +1입니다. 매우 명확하고 잘 정리되어 있습니다.
Sharpie

3
훌륭합니다 ...하지만 우리는 (C) 모델 (수식 / 통계 루틴으로 구현)을 잘못 추가해야합니다.
앤드류 로빈슨

6
t- 값 (또는 다른 검정 통계량)은 대부분 중간 단계입니다. 기본적으로 일부 가정 하에서 잘 알려진 분포를 갖는 것으로 입증 된 통계입니다. 우리는 null 아래에서 테스트 통계의 분포를 알고 있으므로 표준 테이블 (오늘날 대부분 소프트웨어)을 사용하여 p- 값을 도출 할 수 있습니다.
갈라

1
카이 제곱 검정을 수행 한 후 카이 제곱 표에서 p- 값이 도출되지 않습니까? 위에서 계산 된 확률이 어떻게 p- 값 자체를 나타내는 지 궁금합니다!
London guy

123

교사와 사려 깊은 학생 사이의 대화

이 실에는 지금까지 크레용이 충분하지 않다는 믿음으로 겸손하게 제출했습니다. 간략한 설명 된 시놉시스가 끝에 나타납니다.


학생 : p- 값은 무엇을 의미합니까? 많은 사람들이 통계 가 "표본 평균보다 크거나 같은 평균을 볼 확률" 또는 "이 결과를 관찰 할 확률은 ... 귀무 가설이 참일 때" 또는 "내 표본의 통계치" 에 동의하는 것 같습니다 . "시뮬레이션 된 분포에 떨어졌다" 고 심지어 "널 귀무 가설이 참이라고 가정 할 때 계산 된 통계량보다 큰 테스트 통계를 관찰 할 확률"도 있습니다.

교사 : 모든 상황에서 모든 진술은 정확합니다.

학생 : 나는 그들 대부분이 얼마나 관련이 있는지 모르겠습니다. 귀무 가설 과 대립 가설 해야 한다고 습니까? 그들은 이러한 아이디어에 어떻게 "보다 크거나 같음"또는 "적어도 큰 것"또는 매우 인기있는 "더 극단적 인 것"에 관여합니까?H AH0HA

교사 : 일반적으로 복잡해 보일 수 있으므로 구체적인 예를 살펴 보는 데 도움이 되겠습니까?

학생 : 물론 이죠. 그러나 가능하면 현실적이면서도 간단한 것으로 만드십시오.

교사 :이 가설 검정 이론은 역사적으로 관측 오류를 분석하기 위해 천문학 자의 필요성으로 시작되었으므로 어떻게 시작해야할까요. 나는 어느 날 과학자가 자신의 장치에서 측정 오류를 줄이려는 노력을 묘사 한 오래된 문서를 살펴 보았습니다. 그는 알려진 위치에서 별을 많이 측정하고 그 위치 앞뒤로 변위를 기록했습니다. 이러한 변위를 시각화하기 위해, 그는 약간 부드럽게 할 때와 같이 히스토그램을 그렸습니다.

그림 1 : 변위 히스토그램

학생 : 히스토그램의 작동 방식을 기억합니다. 세로 축에는 "밀도"라는 레이블이 붙어있어 측정의 상대 주파수 가 높이가 아닌 영역 으로 표시됩니다 .

교사 : 맞습니다. "비정상적인"또는 "극단적 인"값은 면적이 아주 작은 지역에 있습니다. 여기 크레용이 있습니다. 총 면적의 10 분의 1에 해당하는 지역에서 색칠 할 수 있다고 생각하십니까?

학생 : 물론입니다. 쉽습니다. [그림의 색상.]

그림 2 : 학생의 첫 채색.

교사 : 아주 좋아요! 그것은 그 지역의 약 10 %처럼 보입니다. 그러나 히스토그램에서 중요한 부분은 수직선 사이의 영역이라는 점을 기억하십시오 . 변위가 수평 축의 해당 선 사이에 위치 할 가능성 또는 확률 을 나타냅니다 . 즉, 바닥까지 끝까지 채색해야하고 면적의 절반 이상이 될 것입니까?

학생 : 아, 알겠습니다. 다시 시도하겠습니다. 커브가 실제로 낮은 곳에서 색칠하고 싶습니다. 두 끝에서 가장 낮습니다. 한 영역에서만 색칠해야합니까, 아니면 여러 부분으로 나눌 수 있습니까?

교사 : 여러 부분을 사용하는 것이 현명한 생각입니다. 그들은 어디에 있습니까?

학생 (포인팅) : 여기와 여기. 이 크레용은 그리 선명하지 않기 때문에 펜을 사용하여 사용중인 선을 보여줍니다.

그림 3 : 학생의 두 번째 채색

교사 : 아주 좋아요! 이야기의 나머지 부분을 말씀 드리겠습니다. 과학자는 장치를 약간 개선 한 다음 추가 측정을 수행했습니다. 그는 첫 번째 변위가 단지 이라고 썼는데 이는 좋은 신호라고 생각했지만 신중한 과학자이기 때문에 더 많은 측정을 확인했습니다. 불행히도, 다른 측정 값은 손실됩니다-이 시점에서 원고가 끊어집니다. 우리가 가진 모든 것은 그 단일 숫자 입니다.0.10.10.1

학생 : 너무 나빠요. 그러나 당신의 숫자에서 변위의 넓은 확산보다 훨씬 좋지 않습니까?

교사 : 그것이 당신이 대답하고 싶은 질문입니다. 우선 으로 무엇을 배치해야 합니까?H0

학생 : 회의론자는 장치의 개선이 전혀 효과가 없는지 궁금합니다. 증거의 부담은 과학자에게있다 : 그는 회의론자가 틀렸다는 것을 보여주고 싶었다. 그것은 귀무 가설이 과학자에게는 좋지 않다고 생각합니다. 우리가 알고 있는 의 값을 포함한 모든 새로운 측정 은 첫 번째 히스토그램에 설명 된대로 작동해야한다고 말합니다 . 아니면 그보다 더 나빠질 수도 있습니다.0.1

교사 : 계속하세요.

학생 : 그리고 대안은 새로운 측정이 확산되는 것입니다. 맞습니까?

교사 : 아주 좋아요! 스프레드가 적은 히스토그램이 어떻게 보이는지 그림으로 그려 주시겠습니까? 첫 번째 히스토그램의 다른 사본이 있습니다. 그 위에 참조로 그릴 수 있습니다.

학생 (도면) : 펜을 사용하여 새 히스토그램의 개요를 표시하고 그 아래 영역에서 채색합니다. 수평축에서 대부분의 곡선이 0에 가까워졌고 그 영역의 대부분이 0의 (가로) 값에 가까워졌습니다.

그림 4 : 학생의 새로운 히스토그램

교사 : 좋은 시작입니다. 그러나 확률 을 표시하는 히스토그램 의 총 면적은 이어야합니다 . 따라서 첫 번째 히스토그램의 총 면적은 입니다. 새 히스토그램 내부의 면적은 얼마입니까?111

학생 : 반이하라고 생각합니다. 나는 그것이 문제라는 것을 알지만 그것을 고치는 방법을 모른다. 어떻게해야합니까?

교사 : 비결은 전체 히스토그램을 이전보다 높게 만들어 전체 면적이 이되도록하는 것 입니다. 여기에서는 설명하기 위해 컴퓨터 생성 버전을 보여 드리겠습니다.1

그림 5 : 교사의 새로운 히스토그램

학생 : 나는 본다 : 수직으로 뻗어 모양이 실제로 바뀌지 않았지만 이제는 빨간색 영역과 회색 영역 (빨간색 아래 부분 포함)의 양이 같습니다.

교사 : 맞습니다. 당신은 귀무 가설의 사진을보고있다 (파란색, 확산) 및 부분 (이하 확산과 빨간색으로) 대체 가설.

학생 : 대안의 "부분"은 무엇을 의미합니까? 그것은 단지 아닌가 대립 가설?

교사 : 통계 학자와 문법은 섞이지 않는 것 같습니다. :-) 진지하게, "가설"이 의미하는 바는 일반적으로 완전히 큰 가능성입니다. 여기서 대안은 (이전에 언급했듯이) 측정이 이전보다 "확산되지 않는"것입니다. 그러나 얼마나 덜 ? 많은 가능성이 있습니다. 여기, 다른 것을 보여 드리겠습니다. 노란색 대시로 그렸습니다. 이전 두 사이에 있습니다.

그림 6 : 대안의 두 요소와 함께 null

학생 : 알다시피 : 당신은 다른 양의 스프레드를 가질 수 있지만 그 스프레드가 실제로 얼마나 될지 미리 알 수 없습니다. 그러나이 그림에서 왜 재미있는 음영을 만들었습니까?

교사 : 히스토그램의 차이점과 위치를 강조하고 싶었습니다. 대체 히스토그램이 null보다 낮은 곳에서는 회색 으로, 대안이 높은 곳에서는 빨간색으로 음영 처리했습니다 .

학생 : 왜 그럴까요?

교사 : 양쪽 꼬리에서 첫 번째 히스토그램을 어떻게 채색했는지 기억하십니까? [논문을 보면서.] 아, 여기 있습니다. 이 그림을 같은 방식으로 색칠합시다.

그림 7 : Null 및 대체 색상.

학생 : 나는 기억합니다 : 그것들은 극단적 인 가치입니다. 나는 널 밀도가 가능한 한 작고 10 %가 채색 된 곳을 발견했다.

교사 : 그 극한 지역의 대안에 대해 말해주세요.

학생 : 크레용이 뒤덮었 기 때문에보기 힘들지만, 내가 색칠 한 영역에 대안이있을 가능성이 거의없는 것 같습니다. 히스토그램은 가치 축에 대해 바로 아래에 있으며 그 아래 영역이 없습니다.

교사 : 그 생각을 계속합시다. 가설 적으로, 측정 값이 의 변위를 가지고 있다고 말하고이 3 가지 히스토그램 중 가장 히스토그램 중 어느 것이 가장 좋았 는지 선택하도록 요청했습니다.2

학생 : 첫 번째는 파란색입니다. 그것은 가장 널리 퍼져 있으며 가 발생할 가능성이있는 유일한 곳 입니다.2

교사 : 그리고 원고 의 값은 어떻습니까?0.1

학생 : 흠 ... 그것은 다른 이야기입니다. 3 개의 히스토그램은 모두 에서 매우 높습니다 .0.1

교사 : 알겠습니다. 충분합니다. 그러나 그 값이 과 사이 와 같이 근처에 있다고 가정 해 봅시다 . 이 그래프에서 확률을 읽는 데 도움이됩니까?0 0.20.100.2

학생 : 물론 이죠. 지역을 사용할 수 있기 때문입니다. 과 사이의 각 곡선 아래 면적을 추정해야합니다 . 그러나 그것은 꽤 어려워 보입니다.0.200.2

교사 : 당신은 그렇게 멀리 갈 필요가 없습니다. 어느 지역이 가장 큰지 알 수 있습니까?

학생 : 물론 가장 높은 곡선 아래에있는 것. 세 영역 모두 같은베이스를 가지므로 커브가 클수록 그 아래와베이스 아래에 더 많은 영역이 있습니다. 즉, 가장 큰 막대 그래프 (내가 빨간 대시로 그린 막대 그래프)는 의 변위에 가장 적합합니다 . 난 당신이 함께 어디로 가는지 볼 생각하지만, 나는 조금 걱정 : 내가 볼 필요가 없습니다 모든 의 히스토그램 모든 대안, 단지 하나 또는 두가 여기에 표시하지? 어떻게하면 될까요?0.1

교사 : 패턴을 잘 따를 수 있습니다. 측정 장치가 더욱 정교 해지면 히스토그램은 어떻게됩니까?

학생 : 점점 좁아지고 키도 커야하므로 전체 면적이 동일하게 유지됩니다. 따라서 히스토그램을 비교하기가 매우 어렵습니다. 대안은 모두 에서 null 오른쪽보다 높습니다 . 그러나 다른 가치에서는 때때로 대안이 더 높고 때로는 더 낮습니다! 예를 들어, [ 근처의 값을 가리키고 ] 바로 여기에서 빨간 히스토그램이 가장 낮고 노랑 히스토그램이 가장 높으며 원래의 널 히스토그램이 그 사이에 있습니다. 그러나 오른쪽에는 널이 가장 높습니다.3 / 403/4

교사 : 일반적으로 히스토그램을 비교하는 것은 복잡한 일입니다. 이를 돕기 위해 컴퓨터에 다른 플롯을 만들도록 요청했습니다 . 대체 히스토그램 높이 (또는 "밀도")를 널 히스토그램 높이 로 나누고 "우도 비율"이라는 값을 만듭니다. 결과적으로 보다 큰 값 은 대안이 더 가능성이 높고 보다 작은 값 은 대안이 덜 가능성이 있음을 의미합니다. 그것은 또 다른 대안을 이끌어 냈습니다. 다른 두 가지보다 더 널리 퍼져 있지만 원래 장치보다 여전히 덜 퍼져 있습니다.111

그림 8 : 가능성 비율

교사 (계속) : 대안이 널보다 가능성이 높은 곳을 보여줄 수 있습니까?

학생 (컬러링) : 여기 중간에 있습니다. 그리고 이것은 더 이상 히스토그램이 아니기 때문에 우리는 면적이 아닌 높이를 봐야한다고 생각합니다. 그래서 나는 가로 축에 값의 범위를 표시하고 있습니다. 그러나 중간 정도의 색상을 어떻게 알 수 있습니까? 어디서 색칠을 멈춰요?

그림 9 : 마크 업 가능성 비율 도표

교사 : 확실한 규칙은 없습니다. 그것은 우리가 결론을 어떻게 사용할 것인지와 회의론자들이 얼마나 격렬한가에 달려 있습니다. 그러나 앉아서 당신이 성취 한 것에 대해 생각 : 당신은 지금 큰 우도 비율이 결과는 증거 실현 을위한 작은 가능성의 비율이 대안 및 결과 증거 에 대한 대안. 가능한 한 귀무 가설 하에서 발생할 가능성이 적고 대안 하에서 상대적으로 발생할 가능성이 높은 영역에서 색칠하는 것이 좋습니다. 대화를 시작할 때 되돌아온 첫 번째 다이어그램으로 돌아가서 널 끝에있는 두 개의 꼬리는 "익스트림"이기 때문에 채색되었습니다. 그들은 여전히 ​​좋은 일을합니까?

학생 : 그렇게 생각하지 않습니다. 비록 그것들이 귀무 가설 하에서는 극도로 극도로 희귀했지만 대체 방법으로는 불가능합니다. 만약 나의 새로운 측정치가 이라고한다면 회의론자 편에 서서 이 어떤 경우에도 특이한 결과 였음에도 불구하고 개선이 있었음을 부인할 것이라고 생각 합니다. 나는 그 색을 바꾸고 싶다. 여기, 또 다른 크레용을 갖도록하겠습니다.3.03.03.0

그림 10 : 향상된 마크 업

교사 : 그게 뭐죠?

학생 : 우리는 원래 히스토그램 아래에있는 영역의 10 %, 즉 널 (NULL)을 설명하는 영역에 그리도록 요청했습니다. 이제 대안이 더 많이 생길 것 같은 지역의 10 %를 그렸습니다. 새로운 측정이 그 영역에있을 때 우리는 대안을 믿어야한다고 말합니다.

교사 : 그리고 회의론자는 그것에 어떻게 반응해야합니까?

학생 : 회의론자는 자신이 틀렸다는 것을 인정할 필요가 없습니다. 그러나 나는 그의 믿음이 조금 흔들려 야한다고 생각합니다. 결국, 우리는 방금 그린 영역 안에 측정 가능 하지만 널이 참일 때 10 %의 확률 만 가질 있도록 배열했습니다 . 그리고 대안이 사실 일 때 더 큰 가능성이 있습니다. 과학자가 장치를 얼마나 개선했는지에 달려 있기 때문에 그 기회가 얼마나 큰지 말할 수 없습니다 . 나는 그것이 더 크다는 것을 안다. 따라서 증거는 회의론자에 위배됩니다.

교사 : 알겠습니다 . 배운 내용을 완전히 명확하게 이해할 수 있도록 이해를 요약 해 주시겠습니까?

학생 : 대안 가설을 귀무 가설과 비교하려면 히스토그램을 비교해야한다는 것을 배웠습니다. 우리는 대안의 밀도를 널 (null)의 밀도로 나눕니다. 이것이 바로 "우도 비율"입니다. 좋은 시험을하려면 10 % 나 회의론자를 흔들기에 충분한 양을 골라야합니다. 그런 다음 가능성 비율이 가능한 높은 값을 찾아서 10 % (또는 무엇이든)가 채색 될 때까지 색상을 지정해야합니다.

교사 : 그리고 그 색소를 어떻게 사용하겠습니까?

학생 : 앞서 말씀 드렸듯이, 채색은 세로선 사이에 있어야합니다. 채색 아래에있는 값 (가로 축)은 귀무 가설에 대한 증거입니다. 다른 값들-글쎄, 관련된 모든 히스토그램을 더 자세히 보지 않고 의미가 무엇인지 말하기는 어렵습니다.

교사 : 원고에서 의 가치로 돌아가서 , 무슨 결론을 내립니까?0.1

학생 : 그것은 내가 마지막으로 채색 한 영역 안에 있으므로 과학자가 옳았 고 장치가 실제로 향상되었다고 생각합니다.

교사 : 마지막 것. 결론은 시험의 기준 또는 "크기"로 10 %를 선택하는 것을 기반으로합니다. 많은 사람들이 대신 5 %를 사용하는 것을 좋아합니다. 일부는 1 %를 선호합니다. 그들에게 무엇을 말할 수 있습니까?

학생 : 모든 시험을 한 번에 할 수 없었습니다! 글쎄, 어쩌면 나는 방법으로 할 수 있습니다. 테스트의 크기에 관계없이 에서 채색을 시작해야한다는 것을 알 수 있습니다. 이 의미에서 "가장 극단적 인"값이며 거기서부터 양방향으로 바깥쪽으로 작업합니다. 나는에서 바로 중지한다면 실제로 관찰 고마웠다 값을 - 내가 어딘가 사이의 영역에 착색 한 것이라고 생각 및 , 말 . 5 %와 1 %의 사람들은 내가 너무 많이 색칠했다는 것을 바로 알 수 있습니다. 5 % 나 1 % 만 색칠하고 싶다면 그렇게 할 수는 있지만 만큼 멀지 않습니다.0.1 0.05 0.1 0.08 0.100.10.050.10.080.1. 그들은 내가 한 것과 같은 결론에 이르지 못했을 것입니다. 그들은 실제로 변화가 일어났다는 증거가 충분하지 않다고 말할 것입니다.

교사 : 당신은 처음에 그 모든 인용문들이 실제로 무엇을 의미 하는지 말해주었습니다 . 이 예에서, 더 큰 값을 갖 거나 널 밀도가 작은 을 가질 수 있다는 의미에서 "더 극단적"또는 "보다 크거나 같음"또는 "적어도 큰"을 의도 할 수 없다는 것이 명백해야한다 . 그것들은 실제로 당신이 묘사 한 큰 가능성 비율 의 의미에서 이러한 것들을 의미합니다 . 그런데 계산 한 정도의 숫자를 "p- 값"이라고합니다. 상대 히스토그램 높이 분석-가능성 비율과 관련하여 설명 된 방식으로 만 올바르게 이해할 수 있습니다.0.08

학생 : 감사합니다. 나는이 모든 것을 아직 완전히 이해하고 있다고 확신하지 못하지만, 당신은 나에게 많은 생각을 주었다.

교사 : 더 나아가고 싶다면 Neyman-Pearson Lemma를보십시오 . 당신은 아마 지금 그것을 이해할 준비가되어 있습니다.


개요

대화 상자에있는 것과 같은 단일 통계를 기반으로하는 많은 테스트는 " "또는 " "라고합니다. 이것들은 널 히스토그램이 어떻게 보이는지를 암시하는 방법이지만 힌트 일뿐입니다.이 숫자의 이름은 중요하지 않습니다. 여기에 설명 된대로 학생이 요약 한 구성은 p- 값과의 관계를 보여줍니다. p- 값은 의 관측으로 귀무 가설을 기각하게 하는 가장 작은 검정 크기입니다 .t t = 0.1ztt=0.1

그림 11 : 영역으로서의 p- 값.

세부 사항을 표시하기 위해 확대 된이 그림에서 귀무 가설은 파란색으로 표시되고 두 가지 일반적인 대안은 점선으로 표시됩니다. 이러한 대안이 널보다 훨씬 큰 경향이있는 영역은 음영 처리되어 있습니다. 음영의 대안은 대안의 상대적인 가능성이 가장 큰 곳에서 시작합니다 ( ). 관측치 에 도달 하면 음영이 멈 춥니 다 . p- 값은 널 히스토그램 아래 음영 영역의 영역입니다. 널이 참이라고 가정 할 때 어떤 대안이 참인지에 관계없이 가능성 비율이 큰 결과를 관찰 할 가능성이 있습니다. 특히이 구성은 대립 가설에 밀접하게 의존합니다. 가능한 대안을 지정하지 않으면 수행 할 수 없습니다.t = 0.10t=0.1


4
이것은 다른 대답에 대한 나의 의견을 훌륭하게 다루어 왔으며,이 질문에 대한 이전의 대답 중 일반적으로 p 값 의 일반적으로 들리는 "또는 더 극단적 인"측면을 다루지 않았다는 것입니다. ( '차 테스트'답변 에는 좋은 구체적인 예가 포함되어 있습니다.) 특히이 예가 "더 극단"일수록 "더 큰"또는 "0에서 더 멀다"는 것을 의미 할 수 있음을 강조하기 위해 의도적으로 구성한 방식에 감탄합니다.
Silverfish

4
선생님과 교과서에서 "혹은 더 극단적 인"이라는 문구를 사용하지 않았 으면합니다. 내가 들었 두 가지 변종은 "대한 우호적으로 의역 할 수 "또는 "더 설득력 ". 이 경우 망원경이보다 신뢰성있게되었다는 사실은 0에 가까울수록 더 설득력이있을 것이지만, "좀 더 극단적 인"것으로 묘사하기 위해서는 언어 학적 곡예 (어쩌면 논쟁의 여지가 있지만 혼동 될 수 있음)가 필요합니다. H 1H1H1
Silverfish

3
언제나 그렇듯이 통찰력있는이 유용한 답변을 작성해 주셔서 감사합니다. 왜 교과서가 이러한 수준의 명확성과 직관력에 가까운 곳에서 제공되는 방식으로 쓰여지지 않았는지 궁금합니다.
jeremy radcliff

이 예제가 도움이 될 수있는 가능성에 대한 정의에 대한 링크는
baxx

1
@baxx라는 주석에 sarcasm을 사용하는 것은 위험합니다. 정중하고 우아하게 처리 할 공간이 충분하지 않기 때문입니다. 따라서 명시 적으로 지시하지 않는 한 주석이 냉소적이라고 가정하는 것은 일반적으로 좋지 않습니다. 의견이 도움이된다고 가정하십시오. 내가 제공 한 검색에서 첫 번째 조회 만 수행하면 질문에 대한 답변이 될 것입니다.
whuber

44

이 주제를 만지기 전에 항상 학생들이 백분율, 소수, 확률 및 분수 사이에서 행복하게 움직이는 지 확인하십시오. 그들이 이것에 완전히 만족하지 않으면 매우 빨리 혼란스러워 할 수 있습니다.

Fisher의 고전적인 차 실험을 통해 처음으로 가설 테스트 (따라서 p- 값 및 테스트 통계)를 설명하고 싶습니다. 몇 가지 이유가 있습니다.

(i) 실험을 통해 작업하고 용어를 정의 할 때 이러한 용어를 모두 정의하는 것으로 시작하는 것이 더 의미가 있다고 생각합니다. (ii) 가설 검정의 요점을 극복하기 위해 확률 분포, 곡선 아래 영역 등에 명시 적으로 의존 할 필요는 없습니다. (iii) 그것은 "관찰 된 것보다 더 극단적 인"이라는이 어리석은 개념을 상당히 합리적으로 설명합니다. (iv) 학생들이 그들이 공부하고있는 것에 대한 역사, 기원 및 배경 이야기를 더 현실적으로 이해하는 것을 좋아합니다. 일부 추상적 이론보다. (v) 학생들이 어떤 학문이나 과목에서 왔는지에 관계없이, 학생들은 차의 예와 관련이있을 수 있습니다. (NB 일부 유학생들은이 독특한 영국 차와 우유에 어려움을 겪고 있습니다.)

[참고 : 원래 베이지안 방법이 고전적인 방법보다 우수한 이유를 보여주는 데니스 린들리의 훌륭한 기사 "실험 데이터 분석 : 차와 와인의 감상"에서이 아이디어를 얻었습니다.]

뒷 이야기는 Muriel Bristol이 1920 년대 Rothamsted Experimental Station에서 차 한 잔을 마시기 위해 Fisher를 방문한다는 것입니다. 피셔가 우유를 마지막에 넣었을 때 그녀는 우유가 먼저 쏟아 졌는지 또는 마지막에 쏟아 졌는지 여부와 우유를 선호했는지를 알릴 수 있다고 불평했습니다. 이것을 테스트하기 위해 그는 Muriel에게 한 쌍의 찻잔이 제공되는 클래식 차 실험을 설계했으며 우유를 먼저 넣은 것을 식별해야합니다. 이것은 6 쌍의 찻잔으로 반복됩니다. 그녀의 선택은 Right (R) 또는 Wrong (W)이며 결과는 RRRRRW입니다.

뮤리엘이 실제로 추측 만하고 어떤 것도 차별 할 능력이 없다고 가정 해 봅시다. 이것을 귀무 가설 이라고합니다 . Fisher에 따르면 실험의 목적은이 귀무 가설을 무시하는 것입니다. Muriel이 추측 할 때, 그녀는 각 턴에서 확률 0.5로 티 컵을 올바르게 식별 할 것이며 독립적이므로 관찰 된 결과는 0.5 = 0.016 (또는 1/64)입니다. 피셔는 다음과 같이 주장합니다.6

(a) 귀무 가설 (Muriel이 추측하고 있음)이 참이고 확률이 작은 사건이 발생했거나

(b) 귀무 가설이 거짓이고 뮤 엘리는 차별적 힘을 가지고있다.

p- 값 (또는 확률 값)은 귀무 가설이 참인 경우이 결과 (RRRRRW)를 관찰 할 확률입니다. 위의 (a)에서 언급 된 작은 확률입니다. 이 경우 0.016입니다. 확률이 작은 사건은 (정의 적으로) 거의 발생하지 않기 때문에 상황 (b)는 상황 (a)보다 발생한 상황에 대해 더 바람직한 설명 일 수 있습니다. 우리가 귀무 가설을 기각 할 때 실제로 우리는 대립 가설을 대립하는 가설을 받아들입니다. 이 예에서 뮤리엘은 차별적 인 힘이 대안 적 가설임을가집니다.

중요한 고려 사항은 "작은"확률로 무엇을 분류 하는가입니다. 이벤트가 발생하지 않을 것이라고 생각할 수있는 컷오프 지점은 무엇입니까? 표준 벤치 마크는 5 % (0.05)이며이를 유의 수준이라고합니다. p- 값이 유의 수준보다 작 으면 귀무 가설을 허위로 기각하고 대립 가설을 받아들입니다. p- 값이 유의 수준보다 작을 때, 즉 귀무 가설이 주어 졌을 때 관찰 된 결과가 참일 때 컷오프 지점보다 작을 때 결과가 "유의"하다고 주장하는 것이 일반적입니다. 5 %를 사용하는 것이 완전히 주관적이라는 점을 명심해야합니다 (다른 공통 유의 수준 1 %와 10 %를 사용하는 것처럼).

Fisher는 이것이 작동하지 않는다는 것을 깨달았습니다. 한 쌍의 잘못된 쌍으로 가능한 모든 결과는 차별적 힘을 똑같이 암시했다. 위의 상황 (a)에 대한 관련 확률은 6 (0.5) ^ 6 = 0.094 (또는 6/64)이며 현재 5 %의 유의 수준에서는 중요 하지 않습니다 . 이 문제를 극복하기 위해 6의 1 오류가 차별적 힘의 증거로 간주된다면, 오류가 없다. 즉 p- 값을 계산할 때 관찰 된 것보다 차별적 힘을 더 강력하게 나타내는 결과가 포함되어야한다고 주장했다. 이로 인해 추론이 다음과 같이 수정되었습니다.

(a) 귀무 가설 (Muriel이 추측하고 있음)이 참이며 관측 된 것보다 극도의 사건 확률이 적거나

(b) 귀무 가설이 거짓이고 뮤 엘리는 차별적 인 힘을 가지고있다.

우리 차 실험으로 돌아가서 우리는이 설정에서 p- 값이 7 (0.5) ^ 6 = 0.109이며 5 % 임계 값에서는 여전히 중요하지 않다는 것을 알았습니다.

그런 다음 학생들에게 동전 던지기와 같은 다른 예를 사용하여 동전이 공정한지 여부를 결정하도록합니다. 이것은 귀무 / 대체 가설, p- 값 및 유의 수준의 개념을 심어줍니다. 그런 다음 연속 변수의 경우로 이동하여 검정 통계량 개념을 도입합니다. 우리는 이미 정규 분포, 표준 정규 분포 및 z 변환에 대해 자세히 다루었으므로 몇 가지 개념을 결합하는 것입니다.

테스트 통계, p- 값 계산 및 의사 결정 (중요 / 유의하지 않음)뿐만 아니라 학생들이 누락 된 공란 게임을 채우기 위해 출판 된 논문을 작성하도록합니다.


2
나는 아주 오래된 실을 되 살리고 있다는 것을 알고 있지만 여기에 간다 ... 나는 당신의 대답을 정말로 즐기고 있었지만 그 안에 t 값 부분을 놓쳤다. t-test 부분에 대해 아무도 대답하지 않았습니다
Sosi

@sosi 아마도 p- 값이 t- 값보다 훨씬 일반적이기 때문일 것입니다. 자동차와 포드 피에스타의 브레이크에 관한 질문을하는 것과 같습니다.
추측

2
답은 매우 흥미롭지 만 (+1) 몇 가지가 결국 혼란스러워집니다. 1. 값이 "5 % 수준에서 중요" 하다는 것은 무엇을 의미 합니까? 어느 -value 5 % 미만이거나 그렇지 않다. "의의"를 정의하지 않은 채로 모호한 문장을 사용하는 것이 중요하지 않습니다. 2. 값이 중요 하지 않은지 "결정"한다는 것은 무엇을 의미합니까? 이런 식으로 결정 이론을 혼합하는 것은 타당하지 않은 것 같습니다 (특히 Fisher가 과학에 Neyman-Pearson 테스트 프레임 워크를 적용하는 것에 반대했던 이유는 분명합니다). ppp
Olivier

27

구두 설명이나 계산 은 p- 값이 무엇인지 직감 수준에서 이해하는 데 실제로 도움 이되지 않았지만 시뮬레이션과 관련된 과정을 수강하면 나에게 초점을 맞췄습니다. 이를 통해 귀무 가설에 의해 생성 된 데이터 를 실제로 보고 평균 등을 그릴 수있었습니다. 모의 표본을 추출한 다음 표본의 통계가 해당 분포에서 떨어진 위치를 확인하십시오.

이것의 가장 큰 장점은 학생들이 수학 및 테스트 통계 분포를 잊어 버리고 당면한 개념에 집중할 수 있다는 것입니다. 물론, 그 재료를 시뮬레이션하는 방법 을 배워야 하므로 완전히 다른 학생들에게 문제를 일으킬 수 있습니다. 그러나 그것은 나를 위해 일했고, 나는 시뮬레이션에 셀 수없이 많은 시간을 사용하여 다른 사람들에게 통계를 설명하는 데 도움을주었습니다. 포아송 회귀를하기 위해? ").

이것은 당신이 제기 한 질문에 정확하게 대답하지는 않지만 적어도 나에게는 사소한 것으로 만들었습니다.


10
이것을 설명하기 위해 시뮬레이션을 사용하는 것에 전적으로 동의합니다. 그러나 마지막 예에 대한 작은 메모 : 학생 (단지 학생이 아닌)은 포아송과 같은 특정 분포 가정을 거의 포아송 분포와 조건부 포아송 분포 로 구별하는 것이 어렵다는 것을 알았습니다 . 후자 만이 회귀 모형에 중요하기 때문에, 포아송이 아닌 많은 종속 변수 값이 반드시 우려의 원인 일 필요는 없습니다.
켤레 이전

1
나는 그것을 몰랐다고 고백해야한다. 지난 며칠 동안 회원님의이 사이트에 대한 귀하의 의견에 진심으로 감사드립니다.
매트 파커

@MattParker 이해력을 높이기 위해 시뮬레이션을 사용하는 데 중점을 둔 학습 자료를 알고 있습니까? 아니면 파이썬 / R 스크립트를 모아서 많은 테스트를 실행하는 경우입니까?
baxx

1
@baxx [Daniel Kunin의 이론 이론 웹 사이트] (students.brown.edu/seeing-theory/)에는이를위한 몇 가지 흥미로운 도구가 있지만 여전히 건설 중입니다. 그렇지 않으면, 나는 방금 시뮬레이션을위한 R의 내장 도구를 실험했습니다.이 도구를 사용하여 일부 방법이 어떻게 작동하는지 직접 입증하거나 예측 변수가 임의의 변수 등으로 대체 된 경우 어떻게 될지 알 수 있습니다. 죄송합니다. 나는 이것에 대한 더 나은 자원을 알고 싶다!
매트 파커

@MattParker 멋진 감사합니다. 네, 닭고기와 계란이 조금 들어간 실험을 구성하려면 적어도 그것들을 작성하기에 충분해야합니다. 걱정하지
않아도

16

p- 값의 좋은 정의는 "널 귀무 가설이 참이라고 가정 할 때 계산 된 통계량보다 큰 테스트 통계량을 관찰 할 확률"입니다.

문제는 "통계량 검정"과 "가설"에 대한 이해가 필요하다는 것입니다. 그러나 쉽게 이해할 수 있습니다. 귀무 가설이 참인 경우, 일반적으로 "집단 A의 모수는 모집단 B의 모수와 같습니다"와 같은 통계를 계산하여 해당 모수를 추정합니다. 검정 통계량을 볼 확률은 다음과 같습니다. 다른"?

예를 들어, 동전이 공평하다면, 100 번의 던지기 중에서 60 개의 헤드를 볼 확률은 얼마입니까? 그것은 귀무 가설, "동전이 공정하다"또는 "p = .5"를 테스트하는 것입니다. 여기서 p는 머리 확률입니다.

이 경우의 테스트 통계는 헤드 수입니다.

지금, 나는 가정 당신이 "t-value"를 호출하는 것은 일반적인 "검정 통계량"A "t 분배"에서가 아닌 값입니다. 그것들은 같은 것이 아니며, "t- 값"이라는 용어는 (필수적으로) 널리 사용되지 않으며 혼란 스러울 수 있습니다.

"t-value"라고 부르는 것은 아마도 "test statistic"이라고 부르는 것일 수 있습니다. p- 값을 계산하려면 (확률 일 뿐임) 분포가 필요하며 확률을 반환하는 분포에 연결할 값이 필요합니다. 일단 그렇게하면 반환 확률은 p- 값입니다. 동일한 분포에서 다른 검정 통계량이 다른 p- 값을 반환하기 때문에 관련이 있음을 알 수 있습니다. 더 극단적 인 검정 통계량은 더 낮은 p- 값을 반환하여 귀무 가설이 거짓임을 더 크게 나타냅니다.

여기서는 단면 및 양면 p- 값 문제를 무시했습니다.


11

900 개의 검은 구슬과 100 개의 흰색이 들어있는 가방이 있다고 가정합니다. 즉, 구슬의 10 %가 흰색입니다. 이제 대리석 1 개를 꺼내서보고, 색깔을 기록하고, 다른 것을 꺼내고, 색깔을 기록하는 등의 작업을 100 번 수행한다고 상상해보십시오. 이 과정이 끝나면 흰색 대리석의 숫자가 10 이상이 될 것입니다. 즉, 우리는 10, 즉 100의 10 %가 될 것이지만 실제로는 8, 13 또는 임의성으로 인해 무엇이든지 될 수 있습니다. 이 100 개의 대리석 철회 실험을 여러 번 반복 한 다음 실험 당 그려진 백색 구슬 수의 히스토그램을 플로팅하면 종 곡선이 약 10을 중심으로 표시됩니다.

이것은 10 % 가설을 나타냅니다. 1000 개의 구슬을 포함하는 백이 10 % 인 흰색의 백을 사용하면 100 개의 구슬을 무작위로 꺼낼 때 10 개의 흰색 구슬을 찾을 수 있습니다. p- 값은 이것에 관한 것입니다. 앞에서 만든 벨 커브를 참조하면 5 % 이하의 흰색 구슬을 얻을 수 있고 5 % 미만의 흰색 구슬이 15 개 이상의 흰색 구슬을 차지한다고 가정 할 수 있습니다. 100 개의 대리석 선택에 6 개에서 14 개의 흰색 구슬이 포함됩니다.

이제 다른 사람이 알 수없는 수의 흰색 구슬이 들어있는 1000 개의 구슬로 된 주머니를 엎드렸다 고 가정하면 이러한 질문에 답할 수있는 도구가 있습니다.

i) 100 개 미만의 흰색 구슬이 있습니까?

ii) 100 개가 넘는 흰색 구슬이 있습니까?

iii) 백에 100 개의 흰색 대리석이 포함되어 있습니까?

가방에서 100 개의 구슬을 꺼내어이 샘플 중 몇 개가 흰색인지 계산하십시오.

a) 샘플에 6 ~ 14 개의 흰색이있는 경우 백에 100 개의 흰색 대리석이 있다는 가설을 기각 할 수 없으며 6 ~ 14에 해당하는 p- 값은> 0.05가됩니다.

b) 샘플에 흰색이 5 개 이하인 경우 백에 100 개의 흰색 대리석이 있고 5 이하의 해당 p- 값이 0.05 미만이라는 가설을 기각 할 수 있습니다. 백에 10 % 미만의 흰색 대리석이 포함되어있을 것으로 예상합니다.

c) 샘플에 15 개 이상의 흰색이있는 경우 백에 100 개의 흰색 대리석이 있고 15 개 이상의 해당 p- 값이 0.05 미만이라는 가설을 기각 할 수 있습니다. 백에> 10 % 이상의 백색 대리석이 포함되어있을 것으로 예상합니다.

Baltimark의 의견에 답변

위의 예를 보면 대략 다음과 같습니다.

4.8 % 확률로 흰색 공 5 개 이하

4 이하의 확률 1.85 %

0.55 % 확률 3 이하

2 이하의 0.1 % 확률

6.25 % 확률 15 이상

16 이상의 확률 3.25 %

17 % 이상의 확률 1.5 %

18 이상 확률 0.65 %

19 % 확률로 0.25 % 확률

20 % 이상의 확률 0.1 ​​%

21 이상의 확률 0.05 %

이 수는 R에서 간단한 Monte Carlo 루틴 실행과 그에 따른 샘플링 분포의 Quantile에 의해 생성 된 경험적 분포로부터 추정되었습니다.

원래 질문에 답하기 위해 흰색 공 5 개를 뽑는다 고 가정하면, 1000 개의 대리석 백에 실제로 10 % 흰색 공이 포함되어 있으면 100의 표본에서 5 개의 흰색 만 뽑을 확률은 4.8 %에 불과합니다. 이는 p 값 <0.05와 같습니다. 이제 다음 중에서 선택해야합니다

i) 가방 안에는 실제로 10 %의 흰색 공이 있으며 나는 그다지 소수가 아닌 "불운"

또는

ii) 흰 공이 너무 적어서 실제로 10 % 흰 공이있을 수 없습니다 (10 % 흰 공의 가설을 기각하십시오)


우선, 이것은 큰 예일 뿐이며 p- 값과 검정 통계량의 개념을 설명하는 것은 아닙니다. 둘째, 백색 대리석이 5 개 미만 또는 15 개 이상이면 귀무 가설을 기각한다고 주장합니다. 확률을 계산하는 분포는 무엇입니까? 이것은 보통 거리로 근사 할 수 있습니다. 표준 편차가 3 인 10을 중심으로합니다. 거부 기준이 거의 엄격하지 않습니다.
Baltimark

나는 이것이 단지 예일 뿐이라는 것을 동의 할 것이며, 나는 단지 설명 목적으로 5와 15를 공중에서 뽑았다는 것이 사실이다. 시간이 있으면 두 번째 답변을 게시 할 예정입니다.
babelproofreader

10

p- 값이 알려주지 않는 것은 귀무 가설이 참일 가능성이 높습니다. 기존의 (피셔) 유의성 테스트 프레임 워크에서 먼저 귀무 가설이 참이라고 가정하고 데이터를 관찰 할 가능성을 계산합니다. 이것이 p- 값입니다. 만약 귀무 가설 하에서 데이터가 충분히 관측되지 않는다면 귀무 가설이 거짓이라고 가정하는 것이 직관적으로 합리적으로 보인다. 이것은 전적으로 합리적입니다. 통계학자는 임계 값을 실제적으로 사용하고 (1-p)> 0.95 인 경우 "95 % 유의 수준에서 귀무 가설을 기각합니다"; 그러나 이것은 실제로 합리적으로 입증 된 관습 일 뿐이며, 귀무 가설이 거짓 일 가능성이 5 % 미만임을 의미하지는 않습니다 (따라서 대립 가설이 참일 확률 95 %).

p- 값을 대립 가설이 참일 확률에 매핑하는 함수 f ()를 이미징합니다. 이 함수가 엄격하게 감소한다고 주장하는 것이 합리적 일 것입니다 (예 : 귀무 가설 하에서 관측치가 많을수록 대립 가설이 참일 가능성이 적음). 가능성). 그러나 이것이 우리가 f ()에 대해 아는 전부이므로 p와 대립 가설이 참일 확률 사이에는 관계가 있지만 교정되지 않습니다. 이것은 우리가 p- 값을 사용하여 귀무 가설과 대안 가설의 타당성에 대한 정량적 진술을 할 수 없다는 것을 의미합니다.

Caveat lector : 가설이 무작위 변수가 아니기 때문에 가설이 참일 가능성에 대해 이야기하는 것은 실제로 빈번한 틀 안에 있지 않습니다. 제가 가설의 진실 가능성에 대해 이야기 한 곳에서 나는 암묵적으로 베이지안 해석으로 옮겼습니다. 베이지안과 빈번주의를 혼합하는 것은 올바르지 않지만, 우리가 실제로 원하는 것은 가설의 상대적인 타당성 / 확률에 대한 양적 표시이기 때문에 항상 유혹이 있습니다. 그러나 이것은 p- 값이 제공하는 것이 아닙니다.


7

통계에서는 어떤 것이 절대적으로 확실하다고 말할 수 없으므로 통계학자는 다른 접근법을 사용하여 가설이 참인지 아닌지를 측정합니다. 그들은 데이터에서 지원하지 않는 다른 모든 가설을 기각하려고합니다.

이를 위해 통계 검정에는 귀무 가설과 대립 가설이 있습니다. 통계적 검정에서보고 된 p- 값은 귀무 가설이 정확할 경우 결과의 가능성입니다. 그래서 우리는 작은 p- 값을 원합니다. 값이 작을수록 귀무 가설이 올바른 경우 결과가 줄어 듭니다. p- 값이 충분히 작 으면 (즉, 귀무 가설이 정확하면 결과가 발생할 가능성이 거의 없음) 귀무 가설이 기각됩니다.

이러한 방식으로 귀무 가설을 공식화하고 거부 할 수 있습니다. 귀무 가설이 기각되면 대립 가설을 가장 잘 설명합니다. 귀무 가설이 우연히 결과를 생성 할 수 있기 때문에 대립 가설이 결코 확실하지 않다는 것을 기억하십시오.


p- 값은 실제 결과가 아니라 주어진 결과보다 많거나 "극단적 인"결과 일 가능성입니다. p- 값은 아닌 (T는 검정 통계량이고 t는 관측 값입니다). Pr(Tt|H0)Pr(T=t|H0)
chanceislogic

5

나는 오래된 주제를 되살리는 것이 조금 어리석지 만 여기 에서 뛰어 올라서 링크의 질문에 대한 답변으로 이것을 게시합니다.

p- 값은 구체적인 용어이므로 오해의 여지가 없어야합니다. 그러나 p- 값의 정의에 대한 구어체 번역이 여러 가지 다른 오해를 야기한다는 것은 어떻게 든 신비 롭습니다. 문제의 근본은 "적어도 귀무 가설에 불리한 것"또는 "적어도 표본 데이터에있는 것만큼이나 극한"이라는 문구를 사용하는 것입니다.

예를 들어, Wikipedia는 말합니다

... p- 값은 귀무 가설이 실제로 참일 때 관측 된 샘플 결과 (또는보다 극단적 인 결과)를 얻을 확률입니다.

의미p

"더 극단적 인 결과"를 간접적 인 연설 행위 와 같은 것으로 남겨 두는 것이 좋습니다 . 그래서 내 테이크는

p- 값은 귀무 가설이 참인 "상상 세계"에서 볼 수있는 확률입니다.

xμ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

t-stat는 로 계산합니다t0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

|t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

p- 값이 작기 때문에 x가정이 가정에서 표본을 추출 했을 가능성은 거의 없습니다 . 그러므로 우리는 가정 된 세계가 실제로 실제 세계 일 가능성은 거의 없다고 결론 지었다.


2
+1이지만 "보는 내용을 볼 확률"을 작성하고 "더 극단적 인"부분을 생략하면이 문장은 엄격하게 거짓으로 표시됩니다 (아마 혼동이 적더라도 오해의 소지가 있음). 당신이 보는 것을 볼 확률은 아닙니다 (보통 0입니다). "또는 더 극단적 인"것을 볼 확률이 있습니다. 비록 이것이 많은 사람들에게는 혼란 스러울 수도 있지만 여전히 중요합니다 (그리고이 "더 극단적 인"문구 뒤에 숨어있는 주관성의 정도에 대해 끝없이 논쟁 할 수 있습니다).
amoeba

@amoeba 나는 적절한 예제가 제공 될 때 "관찰 된 샘플 결과 (또는 더 극단적 인 결과)를 얻는"대리 역할을 할 수 있다고 생각했다. 더 나은 표현이 필요할 수 있습니다.
Khashaa

1
@amoeba와 같은 관찰을하려고했습니다. "또는 더 극단적 인"부분은 학생의 키와 티 파티 답변에서 예를 통해 잘 처리되지만이 스레드의 어떤 답변도 그것에 대한 명확한 일반적인 설명, 특히 다른 대안 가설을 다루는 설명에 부딪치지 않았다고 생각합니다 . 나는“또는 더 극단적 인”부분이 많은 학생들에게 개념적 고집 포인트라는 것을 암시하는이 답변에 동의합니다.
Silverfish

@Silverfish : 학생뿐만 아니라 이 "더 극단적 인"비트의 주관성 / 객관성 문제에 대해 논의한 Bayesian vs vs.
amoeba

1
@ 실버 나는 당신의 비판에 동의하고 그것을 해결하기 위해 답변을 게시했습니다. "또는 더 극단적 인"문제의 핵심입니다.
whuber

4

다음 순서로 개념을 설명하는 순서를 따르는 것이 도움이된다는 것을 알게되었습니다. (1) z 곡선과 z 곡선의 위 / 아래에있는 z 점수와 비율. (2) 모집단 표준 편차가 알려진 경우 (및 그에 따라 하나의 표본 z 검정) 주어진 표본에 대한 표본 분포 분포 및 z 점수의 평균은 (3) 단일 표본 t- 검정과 표본은 모집단 표준 편차를 알 수없는 경우를 의미합니다 (특정 산업 통계학 자의 비밀 정체성과 기네스가 통계에 적합한 이유에 대한 이야기가 풍부함). (4) 2- 표본 t- 검정과 평균 차이의 샘플링 분포. 입문 학생들이 T- 시험을 쉽게 이해하는 것은이 주제를 준비하는 기초와 관련이 있습니다.

/ * 겁에 질린 학생 모드 강사 * /


4

또한 시뮬레이션이 교육에 유용한 것으로 나타났습니다.

nN(μ,1)σ2=1H0:μ=μ0

ttstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

"p- 값"은 테스트중인 가설과 관련하여 무엇을 의미합니까?

존재 론적 의미에서 (진리는 무엇인가), 아무 의미도 없습니다 . 모든 가설 검정은 검증되지 않은 가정을 기반으로 합니다. 이것은 일반적으로 테스트 자체의 일부이지만 사용중인 모든 모델의 일부이기도합니다 (예 : 회귀 모델). 우리는 단지 이것을 가정하고 있기 때문에 p- 값이 임계 값보다 낮은 이유가 널이 거짓인지 여부를 알 수 없습니다. 낮은 p- 값으로 인해 null을 거부해야한다는 무조건 추론무의미한 일 입니다. 예를 들어, 모델의 무언가가 잘못되었을 수 있습니다.

인식 론적 의미에서 (우리가 무엇을 배울 수 있습니까?), 그것은 무언가를 의미 합니다 . 테스트되지 않은 전제 조건 에 대한 조건부 지식을 얻습니다 . (적어도 지금까지) 우리는 모든 현실의 건물을 증명할 수 없기 때문에, 우리의 모든 지식은 반드시 조건부 일 것입니다. 우리는 결코 "진실"에 도달하지 않을 것입니다.


-1

대리석이나 동전 또는 높이 측정과 관련된 예제는 수학 연습에 적합 할 수 있지만 직관을 구축하는 데는 좋지 않습니다. 대학생들은 사회에 의문을 갖기를 좋아합니다. 정치적인 예를 사용하는 것은 어떻습니까?

정치 후보가 일부 정책이 경제에 도움이 될 것이라고 약속하는 캠페인을 운영했다고 가정 해 봅시다. 그녀는 선출되고 정책이 제정되었고 2 년 후 경제가 호황을 누리고 있습니다. 그녀는 재선에 나서고 있으며 그녀의 정책이 모든 사람의 번영의 이유라고 주장합니다. 그녀를 다시 선출해야합니까?

사려 깊은 시민은 "경제가 잘되고 있다는 것이 사실이지만 우리는 실제로이를 당신의 정책에 귀속시킬 수 있습니까?"라고 말해야합니다. 이 질문에 진정으로 답하기 위해서는 "지난 2 년 동안 경제가 없었을까요?"라는 질문을 고려해야합니다. 대답이 '예'인 경우 (예 : 관련없는 새로운 기술 개발로 인해 경제가 호황을 누리고있는 경우) 데이터에 대한 정치인의 설명을 거부합니다.

즉, 하나의 가설 (정책이 경제에 도움이 되었음)을 검토하려면 해당 가설이 무효 인 세계 의 모델 을 만들어야합니다 (정책은 제정되지 않았습니다). 그런 다음 해당 모델 에서 예측 합니다. 우리는 대체 세계에서이 데이터를 관찰 할 확률을 p- 값 이라고 부릅니다 . p- 값이 너무 높으면 가설을 확신하지 못합니다. 정책은 아무런 차이가 없었습니다. p- 값이 낮 으면 가설을 신뢰합니다. 정책은 필수적이었습니다.


1
나는 p가 "대체 세계에서이 데이터를 관찰 할 확률을 p- 값이라고 부른다"와 결론이 도출되는 힘 (특히 널을 거부하지 못함)이라고 정의하는 것에 동의하지 않는다.
Silverfish

@Silverfish 좀 더 자세히 설명해 주시겠습니까? 아마도 p- 값을 해당 관측치 또는보다 극단적 인 관측치의 확률로 부르는 것이 더 정확할 것입니다. 그러나 더 깊은 비판이있는 것 같습니다.
cgreen

1
원래의 질문은 p- 값이 무엇인지 묻는 것이기 때문에 그 정의를 명확하게 이해하는 것이 중요하다고 생각했습니다. "더 극단적 인"이라고 말하는 것 자체가 "더 극단적 인"이라는 의미가 무엇인지 설명하지 않고서는 그다지 도움이되지 않습니다. 이것이 제가 생각하는이 스레드에서 대부분의 답변의 약점입니다. whuber의 답변과 "차 테스트"만이 "더 극단적 인" 이유도 실제로 설명하는 것 같습니다 .
Silverfish

또한 당신의 결론이 너무 강하게 표현되었다고 느꼈습니다. 우리가 널을 거부한다면, 우리는 널에 대해 상당한 증거를 가지고 있지만 그것이 거짓인지는 모릅니다. 우리가 널을 거부하지 못한다고해서 반드시 널이 참임을 의미하지는 않습니다. 좀 더 일반적인 의견으로, 나는 당신이 묘사하는 시험을 매우 추상적 인 용어로 시험 수행 방법을 배우는 학습자에게는 분명하지 않다고 생각합니다. 명확하게 정의 된 검정 통계량의 부족은 t- 통계량 을 해석하는 방법을 묻는 원래의 질문과 잘 맞지 않습니다 .
Silverfish

이 답변의 특징 중 하나는 null 모델이 실제로 참이라고 생각하지 않더라도 p- 값이 null 모델을 사용하여 계산된다는 명확한 설명입니다. 모델에서 계산 된 사실 테스트 통계는 많은 학생들이 어려움을 겪는 핵심 포인트라고 생각합니다.
Silverfish

-1

p

pX

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

X

  1. p[0,1]
  2. [0,1]p

p


P

@whuber 입력 해 주셔서 감사합니다. 정의를 편집했으며 이제 더 의미가 있습니다!
nalzok

1
X[0,1].

(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2

-4

p- 값은 대부분의 분석가들이하는 것처럼 신비하지 않습니다. t- 검정에 대한 신뢰 구간을 계산할 필요는 없지만 귀무 가설을 기각 할 수있는 신뢰 수준을 간단히 결정하는 방법입니다.

삽화. 당신은 테스트를 실행합니다. p- 값은 Q- 변수의 경우 0.1866, R- 변수의 경우 0.0023으로 나타납니다. (이것은 %로 표시됩니다).

귀무 가설을 기각하기 위해 95 % 신뢰 수준에서 테스트하는 경우;

Q의 경우 : 100-18.66 = 81.34 %

R의 경우 : 100-0.23 = 99.77 %.

95 % 신뢰 수준에서 Q는 거부 할 신뢰가 81.34 %입니다. 이것은 95 % 아래로 떨어지며 허용되지 않습니다. 수락 NULL

R은 99.77 %의 신뢰를 제공하여 null을 거부합니다. 분명히 원하는 95 % 이상. 따라서 우리는 null을 거부합니다.

방금 귀무 가설을 기각하는 신뢰 수준까지 측정하는 '역방향'을 통해 p- 값을 읽는 방법을 설명했습니다.


6
QR

@cardinal은 중요한 점을 지적합니다. 널을 허용하지 않습니다.
Patrick Coulombe

-8

****** 가설 검정의 p 값은 검정의 민감도를 측정합니다. p 값이 낮을수록 민감도가 커집니다. 유의 수준이 0.05로 설정된 경우 p 값 0.0001은 검정 결과가 정확할 확률이 높다는 것을 나타냅니다 ******


6
-1 이것은 분명히 잘못되었습니다. 가장 높은 투표 응답을 먼저 읽으십시오.
Momo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.