사람들이 주어진 데이터의 모델 확률을 계산하는 대신 p- 값을 사용하는 이유는 무엇입니까?


43

대략 p- 값을 말하면 가설 (모델)이 주어지면 실험 결과가 관찰 될 가능성이 있습니다. 이 확률 (p- 값)을 가짐으로써 우리는 가설을 판단하려고합니다. 그러나 관측 된 결과가 주어지면 가설의 확률을 계산하는 것이 더 자연스럽지 않습니까?

자세한 내용은. 우리는 동전이 있습니다. 우리는 그것을 20 번 뒤집었고 14 개의 머리를 얻었습니다 (20 개 중 14 개는 "실험 결과"라고합니다). 이제 우리의 가설은 동전이 공정하다는 것입니다 (머리와 꼬리의 확률은 서로 동일합니다). 이제 p- 값을 계산합니다. 즉, 20 번의 동전으로 14 개 이상의 머리를 얻을 확률과 같습니다. 자, 이제 우리는이 확률 (0.058)을 가졌으며이 확률을 사용하여 모델을 판단하려고합니다 (어떻게 우리는 공정한 동전을 가질 가능성이 있습니까).

그러나 모형의 확률을 추정하려면 실험을 통해 모형의 확률을 계산하지 않는 이유는 무엇입니까? 모델 (p- 값)이 주어진 실험의 확률을 계산하는 이유는 무엇입니까?


가능성 함수를 계산하려면 실험을 어떻게 든 모델링해야합니다.
Raskolnikov

11
Pete Dixon은 1998 년에 "과학자들이 왜 p- 값을 가치있게 평가 하는가"( psychnomic.org/backissues/1631/R382.pdf ) 라는 기사를 썼습니다 . Glover & Dixon의 2004 년 논문은 대체 측정치 ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ) 에 대한 가능성 비율에 대한 좋은 후속 조치 입니다.
Mike Lawrence

2
마이크, 그건 저에게 좋은 대답 인 것 같습니다. 댓글에서 무엇을하고 있습니까?
Matt Parker

John D Cook은 내 질문에 대한 훌륭한 답변을 게시했습니다. stats.stackexchange.com/questions/1164/…
doug

통계 학자들은 사람들이 p- 값을 사용하지 않습니다. (이것은 또한 진실한 말도 참을 수 없었습니다. 물론, 각 명사를 올바르게 규정하기 시작하면 그 명절을 잃게됩니다.)
Wayne

답변:


31

가설이 올바른 확률을 계산하는 것은 확률에 대한 베이 즈 정의의 주관성을 피하기 위해 채택 된 확률 (장기 빈도)의 잦은 정의에 잘 맞지 않습니다. 특정 가설의 진실은 무작위 변수가 아니며, 사실이거나 그렇지 않으며 더 이상 실행 빈도가 없습니다. 가설의 진실 확률에 관심을 갖는 것이 실제로 더 자연 스럽습니다. 이것은 p- 값이 종종 귀무 가설이 참일 확률로 잘못 해석되는 IMHO입니다. 어려움의 일부는 베이 즈 규칙에서 가설이 참인 사후 확률을 계산하려면 가설이 참이라는 사전 확률로 시작해야한다는 것입니다.

베이지안 데이터 (및 그 / 그녀의 사전 신념)가 주어지면 가설이 참일 확률을 계산합니다.

기본적으로 잦은 접근과 베이지안 접근 중 하나를 결정하는 것은 잦은 접근이 일반적으로 실제로 묻고 싶은 질문에 대한 직접적인 대답을 제공하지 않는다는 사실보다 베이지안 접근의 가정 된 주관성이 더 끔찍한 지 여부에 대한 선택입니다. 양자 모두.

동전이 공정한지, 즉 머리의 확률이 꼬리의 확률과 같은지 묻는 경우, 우리는 현실 세계에서 우리가 처음부터 거의 확실하게 알고 있다는 가설의 예를 가지고 있습니다. 동전의 양면은 비대칭이므로 머리와 꼬리의 확률에서 약간의 비대칭 성을 기대해야하므로 동전이 테스트를 통과하면 관찰 할 수있는 충분한 관측치가 없다는 것을 의미합니다 우리가 이미 알고있는 것을 결론 지으십시오-동전은 매우 약간 편향되어 있습니다!


4
실제로, 대부분의 동전은 실제로 공정에 매우 가깝고, 그것을 매우 많이 바이어스하는 물리적으로 그럴듯한 방법을 생각해 내기가 어렵습니다 (예 : stat.columbia.edu/~gelman/research/published/diceRev2.pdf
Ben Bolker 참조)

8
공정에 매우 가깝다는 것은 정확히 공정한 것과 같지 않습니다. 이것이 귀무 가설입니다. 나는 가설 검정의 특이점 중 하나를 지적하고 있었다. 즉, 우리는 종종 귀무 가설이 거짓임을 알고 있지만 어쨌든 사용한다. 보다 실용적인 테스트는 동전이 편중되었다는 중요한 증거보다는 동전이 심각하게 편중되었다는 증거가 있는지 탐지하는 것입니다.
Dikran Marsupial

1
안녕, 어쩌면 내가 잘못 생각하지만 과학에 생각, 당신은 결코 대립 가설이 사실이라고 말할 수 없습니다, 당신은 귀무 가설이 기각되고 대립 가설을 받아 들일 수 있다고 말할 수 있습니다. 나에게 p 값은 타입 1 오류가 발생할 확률을 반영한다. 즉, 당신은 대립 가설을 기각하고 귀무 가설을 받아 들일 것이다 (p = .05 또는 5 %의 시간. 타입 1을 구별하는 것이 중요하다) 오류 및 유형 2 오류 및 이벤트 모델링에서 전원이 수행하는 역할
user2238

3
빈번한 테스트의 경우 더 약한 진술을 사용합니다. 즉, 귀무 가설을 기각하거나 귀무 가설을 기각하지 못하고 아무 것도 받아들이지 않습니다. 핵심은 (바이어스 코인의 경우와 같이) 때로는 귀무 가설이 사실이 아니라는 것을 미리 알고 있다는 것입니다. 이 경우 "수락"하는 것이 이상합니다. 빈번한 테스트에는 유형 I 및 유형 II 오류율이 있지만 OP 에서처럼 특정 가설이 사실 일 가능성에 대해 이야기 할 수있는 것은 아닙니다.
Dikran Marsupial

2
@ user2238 p- 값은 귀무 가설이 "단순"(합성 아님)이고 참인 경우 에만 유형 I 오류 가 발생할 가능성이 있습니다. 예를 들어, 동전이 꼬리쪽으로 치우친 지 여부에 대한 단측 테스트 ( )에서 양방향 동전을 사용하면 p- 값이 0 인 경우에도 제 1 종 오류가 발생하지 않습니다. 유한 샘플은 0이 아닙니다. H0:p<0.5
whuber

18

정말 오래된 질문에 답하는 것만 큼 좋은 것은 아니지만 여기에갑니다 ...

p- 값은 거의 유효한 가설 검정입니다. 이것은 Jaynes의 2003 년 확률 이론 책 (반복 실험 : 확률과 빈도)에서 가져온 약간 수정 된 발췌문입니다. 테스트하려는 귀무 가설 이 있다고 가정 합니다. 데이터 D 와 사전 정보 I가 있습니다. 우리가 H 0 에 대해 테스트 할 지정되지 않은 가설 H A 가 있다고 가정합니다 . 위한 후방 교차비 H 대하여 H 0는 다음에 의해 주어진다 :H0DIHAH0HAH0

P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)

이제 오른쪽의 첫 번째 항은 데이터와 무관하므로 데이터는 두 번째 항을 통해서만 결과에 영향을 줄 수 있습니다. 이제, 우리는 항상 대립 가설 발명 할 수 있도록 P ( D | H 내가 ) = 1 은 "완벽하게 맞지는"가설을 -. 따라서 우리는 1 을 사용할 수 있습니다HAP(D|HAI)=1데이터가 널 (null)에 대한 대체 가설을 얼마나 잘 지원할 수 있는지에 대한 척도 인 P ( D | H 0 I ) . 데이터가1보다 큰H0을지원할 수 있다는 가설은 없습니다.1P(D|H0I)H0 . 또한 대안의 클래스를 제한 할 수 있으며, 그 변화는1이 해당 클래스 내에서 최대화 된 가능성 (정규화 상수 포함)으로 대체된다는 것입니다. 경우P(D|H0내가)너무 작아 시작과 대안의 수 있기 때문에, 우리는 널을 의심하기 시작H0H, A는(무시할 사전 확률 일부 포함) 성장한다. 우리의 확률 계산하지 않는 :하지만이 그래서 매우 거의 무슨 일이 P-값으로 수행하지만, 한 가지 예외가t을(1P(D|H0I)1P(D|H0I)H0HA통계의 일부 통계 t ( D ) 및 일부 "나쁜"영역의 경우 D ) > t 0 우리는 우리가 실제로 가지고있는 정보 인 t ( D )가 아닌 D에 대한 확률을 계산한다.t(D)>t0t(D)Dt(D)

D{x1,,xN}xiNormal(μ,σ2)IH0:μ=μ0. 그런 다음 약간의 계산 후에

P(D|H0I)=(2πσ2)N2exp(N[s2+(x¯μ0)2]2σ2)

x¯=1Ni=1Nxis2=1Ni=1N(xix¯)2P(D|H0I)μ0=x¯

P(D|HAI)=(2πσ2)N2exp(Ns22σ2)

그래서 우리는이 두 가지의 비율을 취합니다.

P(D|HAI)P(D|H0I)=(2πσ2)N2exp(Ns22σ2)(2πσ2)N2exp(Ns2+N(x¯μ0)22σ2)=exp(z22)

z=Nx¯μ0σ|z|x¯

x¯X¯Normal(μ,σ2N)X¯x¯|X¯μ0||X¯μ0||x¯μ0|

p-value=P(|X¯μ0||x¯μ0||H0)
=1P[N|x¯μ0|σNX¯μ0σN|x¯μ0|σ|H0]
=1P(|z|Z|z||H0)=2[1Φ(|z|)]

|z|

이 예제에서는 두 가지 모두 쉬운 일이지만 더 복잡한 경우에는 항상 쉬운 것은 아닙니다. 경우에 따라 샘플링 통계를 사용하고 계산할 올바른 통계를 선택하는 것이 더 쉬울 수 있습니다. 다른 대안에서는 대안의 클래스를 정의하고 해당 클래스를 최대화하는 것이 더 쉬울 수 있습니다.

이 간단한 예제는 많은 p- 값 기반 테스트를 설명하는데, 그 이유는 많은 가설 테스트가 "대략 정상적인"다양성이기 때문입니다. 그것은 동전 문제에 대한 대략적인 답변을 제공합니다 (이항에 대한 일반적인 근사법을 사용하여). 또한이 경우 p- 값이 최소한 단일 가설 검정의 관점에서 당신을 타락시키지 않을 것임을 보여줍니다. 이 경우 p- 값이 귀무 가설에 대한 증거의 척도라고 말할 수 있습니다.

0.193.870.05196.830.12.330.052.78


4
+1. "... 통계를 선택하는 것은 여러분이 고려하고있는 대립 가설을 정의하는 것과 같습니다."라는 것은 깊은 통찰력입니다.
whuber

kk

1
@ faheemmitha- 당신은 조합 폭발에 대해 맞습니다. 그러나 이것은 내가 설명한 접근법에 대해서는 발생하지 않습니다 (사실 베이 접근 방식이 효과적으로 잔차를 정의하고 있음을 보여줄 수 있습니다). 클래스를 정의하고 최대화하기 만하면되기 때문입니다. 우리는 각 대안을 평가할 필요가 없으며 가장 좋은 대안을 찾으십시오.
chanceislogic

왜이 답변이 Community Wiki입니까?
amoeba는

10

실습을 시작한 전 학자로서 나는 총을 맞을 것이다. 사람들은 유용하기 때문에 p- 값을 사용합니다. 동전 뒤집기의 교과서 예에서는 볼 수 없습니다. 물론 그것들은 근본적으로 확고하지는 않지만, 우리가 학문적으로 생각할 때 생각하는 것만 큼 필요하지 않을 수도 있습니다. 데이터 세계에서, 우리는 다음에 살펴볼 문자 그대로 무한한 수의 것들로 둘러싸여 있습니다. p- 값 계산을 사용하면 관심이없는 것이 무엇인지, 어떤 종류의 데이터가 흥미로울 지에 대한 수치 적 휴리스틱 (관심없는 확률 모델과 함께)이 필요합니다. 그런 다음 개별적으로 또는 집합 적으로 우리는 아주 간단한 것을 스캔하여 무관심의 대부분을 거부 할 수 있습니다. p- 값을 사용하면 "이 문제에 대해 생각하는 데 우선 순위를 두지 않으면


10

귀하의 질문은 빈번한 추론의 훌륭한 예이며 실제로는 자연 스럽습니다. 가설 검정의 본질을 보여주기 위해이 예제를 수업에서 사용했습니다. 자원 봉사자에게 동전 뒤집기의 결과를 예측해달라고 요청합니다. 결과가 어떻든“올바른”추측을 기록합니다. 수업이 의심스러워 질 때까지이 작업을 반복해서 수행합니다.

이제 그들은 머리에 널 모델이 있습니다. 그들은 동전이 공정하다고 가정합니다. 모든 것이 공평 할 때 50 %의 정확한 가정을 가정 할 때, 모든 연속적인 정확한 추측은 공정한 동전 모델이 부정확하다는 더 많은 의심을 불러 일으 킵니다. 몇 가지 올바른 추측과 그들은 우연의 역할을 받아들입니다. 5 번 또는 10 번의 정확한 추측 후에, 클래스는 항상 공정한 동전의 가능성이 낮다는 것을 의심하기 시작합니다. 따라서 그것은 빈번주의 모델 하에서 가설 검정의 본질에있다.

가설 검정에 대한 빈번한 테이크의 명확하고 직관적 인 표현입니다. 널이 참인 경우 관측 된 데이터의 확률입니다. 이 쉬운 실험으로 입증 된 것처럼 실제로는 매우 자연 스럽다. 우리는 모델이 50-50이라는 것을 당연한 것으로 생각하지만 증거가 올라감에 따라 그 모델을 거부하고 다른 것이 있다고 생각합니다.

따라서 내가 추정하는 모델 (p- 값)을 고려할 때 내가 관찰 할 확률이 낮 으면 가정 된 모델을 거부 할 것이라는 확신이 있습니다. 따라서 p- 값은 우연의 역할을 고려한 가정 모델에 대한 유용한 증거 측정 값입니다.

면책 조항 : 나는 잊혀진 오래 잊혀진 기사 에서이 운동을 ASA 저널 중 하나에서 가져 왔습니다.


브렛, 이것은 흥미롭고 좋은 예입니다. 여기의 모델은 사람들이 머리와 꼬리의 순서가 임의의 방식으로 발생하기를 기대하는 것 같습니다. 예를 들어, 5 개의 헤드가 연속으로 표시되면 이것이 비 랜덤 프로세스의 예라고 추론합니다. 사실, 내가 틀릴 수도 있습니다. 왜냐하면 확률 (임의 가정)은 50 % 머리와 50 % 꼬리이며, 이것은 이전 결과와 완전히 독립적입니다. 요점은 우리가 동전에게 있었다 25,000 나머지 꼬리 제공 50000 번과 제 25000이었다 머리를 던졌다 경우,이 여전히 편견의 부족 반영이다
user2238을

@ user2238 : 마지막 진술은 사실이지만, 매우 드물게 나타납니다. 실제로 동전이 공정하면 5 번의 헤드에서 5 번의 헤드 런을 보는 것이 시간의 3 %에 불과합니다. 널이 참일 가능성이 항상 있으며 우리는 드문 사건을 목격했습니다.
Brett

6

"거의 말하기 p- 값은 가설 (모델)이 주어지면 실험 결과가 관측 될 확률을 제공합니다."

그러나 그렇지 않습니다. 대충도 아닙니다-이것은 중요한 구별을 퍼지합니다.

Raskolnikov가 지적한 것처럼 모델이 지정되어 있지 않지만 이항 모델 (독립 동전 던지기, 알 수없는 고정 동전 바이어스)을 의미한다고 가정 해 봅시다. 가설은이 모델의 관련 매개 변수, 즉 머리의 편향 또는 확률이 0.5라는 주장입니다.

"이 확률 (p- 값)을 가짐으로써 우리는 가설을 판단하려고합니다 (얼마나 가능성이 있는지)"

우리는 실제로이 판단을 원할 수도 있지만 p- 값은 그렇게하는 데 도움이되지 않을 것입니다.

"그러나 관측 된 결과가 주어지면 가설의 확률을 계산하는 것이 더 자연스럽지 않습니까?"

아마도 그럴 것입니다. 위의 Bayes에 대한 모든 토론을보십시오.

"[...] 이제 p- 값을 계산합니다. 즉, 20 번의 동전 뒤집기에서 14 개 이상의 헤드를 얻을 확률과 같습니다. 이제이 확률 (0.058)을 가지게됩니다. 우리의 모델을 판단하십시오 (어떻게 우리가 공정한 동전을 가질 가능성이 있는지). "

'모델이 참이라고 가정하고, 우리의 가설에 대해', 그러나 본질적으로 : 그렇습니다. p- 값이 크면 코인의 행동이 공정하다는 가설과 일치한다는 것을 나타냅니다. (그들은 일반적으로 가설이 거짓이라는 사실과 일치하지만 사실에 가까워서 알 수있는 데이터가 충분하지 않습니다. '통계 능력'을보십시오.)

"하지만 모형의 확률을 추정하려면 실험에서 모형의 확률을 계산하지 않는 이유는 무엇입니까? 모형 (p- 값)에서 실험의 확률을 계산하는 이유는 무엇입니까?"

실제로이 설정의 가설을 고려하여 실험 결과의 확률을 계산하지 않습니다. 결국, 가설이 참일 때 정확히 10 개의 머리를 볼 확률은 약 0.176에 불과하며 이는 가장 가능성있는 값입니다. 이것은 전혀 관심의 대상이 아닙니다.

일반적으로 모형의 확률도 추정하지 않는 것이 중요합니다. 잦은 반응과 베이지안 답변은 일반적으로 모형이 참이라고 가정하고 모수에 대한 추론을합니다. 사실, 모든 베이지안 원칙적으로 모형의 확률, 즉 전체 상황이 이항 분포에 의해 잘 모형화 될 확률에 관심이있는 것은 아닙니다 . 그들은 많은 모델 검사를 할 수도 있지만 실제로 이항성이 다른 가능한 모델의 공간에 얼마나 가능성이 있는지 묻지 않습니다. Bayes Factors에 관심이있는 Bayesians는 관심이 있지만 다른 사람들은별로 관심이 없습니다.


2
흠, 두 번의 투표. 대답이 너무 나쁘면 논평이 있으면 좋을 것입니다.
Junjuprior

나는이 답변을 좋아했다. 때로는 교과서와 유사하지 않기 때문에 사람들이 투표 답변을 거절하고 상식 또는 평신도 설명과 같은 오염을 포함하는 모든 토론 사이트를 제거하려고 시도합니다.
Vass

나는 공감하지 않았지만 문제는 당신의 요점이 명확하지 않다고 생각합니다.
Elvis



2

확률을 정의하십시오 . 진심이야. 더 진행하기 전에 조건을 정해야합니다.

DM

P(M|D)P(M,D)

106/28109

의학적 상태와 작동 방식에 관한 실제 세계의 문제에서는 관절 분포의 이러한 구성 요소를 전혀 찾지 못할 수 있으며 상태를 조절할 수 없습니다.

P(M,D)p=0.5P(p=0.5)=0B(0.5,0.5)B(1000,1000)0.528109/(28109+106)

정확한 모델이 무엇인지에 대한 이야기의 어려움 외에도 베이지안 방법은 모델의 잘못된 사양을 다루는 방법이 제한되어 있습니다. 가우시안 오류가 마음에 들지 않거나 동전 던지기의 독립성을 믿지 않는 경우 (처음 10,000 번 정도 던지면 손이 피곤하므로 처음 1,000 번 정도 높이 던지지 마십시오. 베이지안 세계에서 할 수있는 모든 것은 더 복잡한 모델을 만드는 것입니다. 정상 혼합물의 경우 우선 순위를 매기고, 시간이 지남에 따라 확률의 스플라인을 지정하는 것입니다. 그러나 모델이 잘못 지정되어이를 설명 할 수 있음을 명시 적으로 인정하는 Huber 샌드위치 표준 오류와 직접적인 유사성은 없습니다.

<Ω,F,P>ΩFσPAΩAFXt,t[0,1]{Xt>0,t[0,0.5]}{Xt>0,t{t1,t2,,tk}}kσ


1

그러나 모형의 확률을 추정하려면 실험을 통해 모형의 확률을 계산하지 않는 이유는 무엇입니까?

우리는 방법을 모릅니다. 가능한 수의 모형이 있으며 확률 공간이 정의되어 있지 않습니다.

다음은 실제 예입니다. 미국 GDP를 예측하고 싶다고 가정 해 봅시다. 시계열을 받아 모델에 맞습니다. 이 모델이 사실 일 확률은 얼마입니까?

Δlnyt=μ+et
μet

여기에 이미지 설명을 입력하십시오

lnyt=ct+et
c

μ

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.