p- 값이 유용한 좋은 설득력있는 예는 무엇입니까?


64

제목에 대한 나의 질문은 자명하지만, 나는 약간의 맥락을 제시하고 싶습니다.

ASA는 이번 주 초“ p- 값 : 맥락, 프로세스 및 목적에 관한 성명을 발표했으며 , p- 값에 대한 여러 가지 일반적인 오해를 설명하고, 문맥과 생각없이 사용하지 않도록주의 할 것을 요구했다. 모든 통계적 방법).

Matloff 교수는 ASA에 대한 응답으로 다음과 같은 블로그 게시물을 작성했습니다. 150 년 후 ASA는 p-values에 아니오라고 말합니다 . 그런 다음 Benjamini 교수 (및 I)는 최근 ASA 진술에 대한 p- 값의 결함이 아니라는 제목의 응답 게시물을 썼습니다 . 이에 대해 Matloff 교수 는 후속 게시물에서 물었다 .

내가보고 싶은 것은 [... is] -p- 값이 유용한 좋은 설득력있는 예입니다. 그것은 정말로 결론입니다.

값 의 유용성에 대한 그의 두 가지 주요 주장 을 인용 하면 :p

  1. 표본이 클수록 귀무 가설에서 작고 중요하지 않은 이탈에 대한 유의성 테스트가 시작됩니다.

  2. 현실 세계에서는 거의 귀무 가설이 사실이 아니므로, 유의성 검정을 수행하는 것은 터무니없고 기괴합니다.

다른 교차 검증 된 커뮤니티 회원이이 질문 / 인수에 대해 어떻게 생각하고, 그것에 대해 좋은 반응을 보일 수있는 것에 관심이 있습니다.


5
이 주제와 관련된 다른 두 개의 스레드 인 stats.stackexchange.com/questions/200500/…stats.stackexchange.com/questions/200745/…
Tim

2
고마워 팀. 내 질문이 자체 스레드를 가질만큼 충분히 다른 것으로 의심됩니다 (특히 언급 한 두 가지 질문에 대한 답변이 없기 때문에). 아직도, 링크는 매우 흥미 롭습니다!
탈 Galili

3
그것은 가치가 있고 흥미로워 서 (따라서 나의 +1), 나는 단지 참고로 링크를 제공했습니다 :)
Tim

3
나는 Matloff가 그 주제에 대해 쓴 것을 아직 읽지 않았다고 말해야하지만 여전히 질문이 저절로 서기 위해 왜 그가 p- 값 사용법의 표준 예제를 찾지 못하는지를 간단히 요약 할 수 있습니까? 좋은 / 설득력있는 "? 예를 들어 어떤 사람이 특정한 실험 조작이 특정 방향으로 동물 행동을 변화시키는 지 연구하고 싶어합니다. 실험군과 대조군을 측정하고 비교합니다. 그러한 논문의 독자로서, 나는 p- 값 (즉, 그것들이 나에게 유용함)을 보게되어 기쁘다. 왜냐하면 그것이 크면주의를 기울일 필요가 없기 때문이다. 이 예제로는 충분하지 않습니까?
amoeba는 Reinstate Monica

1
@amoeba-그는 여기에 그것들을 나열합니다 : matloff.wordpress.com/2016/03/07/… ----- 그의 주장을 인용 : 1) 큰 표본으로 유의성 검정은 귀무 가설에서 작고 중요하지 않은 출발점에 대해 pounce합니다. 2) 현실 세계에서 거의 귀무 가설이 사실이 아니므로, 유의성 검정을 수행하는 것은 터무니없고 기이합니다. ----- 나는 이것들 (나중에 형식화하고 싶다)에 대해 나 자신의 의견을 가지고 있지만, 다른 사람들이 이것에 대한 통찰력있는 방법을 가질 것이라고 확신한다.
탈 Galili

답변:


44

Matloff의 두 가지 요점을 모두 고려하겠습니다.

  1. 표본이 클수록 귀무 가설에서 작고 중요하지 않은 이탈에 대한 유의성 테스트가 시작됩니다.

    여기서 논리는 누군가가 매우 중요한 보고하면 이 숫자만으로도 효과가 크고 중요하거나 부적절하게 작은 지 말할 수 없다는 것입니다 (큰 발생할 수 있음 ). 나는이 주장이 이상하다고 생각하고 전혀 연결할 수 없다. 왜냐하면 효과 크기를보고하지 않고 값을보고 하는 연구를 본 적이 없기 때문이다 . 내가 읽은 연구는 그룹 A가 그런 평균을 가졌다 고 말하고 그룹 B는 그런 평균을 가졌으며 그러한 값 과는 상당히 달랐다 . A와 B의 차이가 크거나 작은 지 분명히 알 수 있습니다.n p pp=0.0001npp

    (댓글에서 @RobinEkman은 Ziliak & McCloskey ( 1996 , 2004 )가 인용 한 여러 연구에서 저에게 경제 규모 논문의 대부분이 영향의 크기와 그것의 "실제적 중요성"(Z & MS는 종종 소홀 할 수 있다고 주장한다). 이것은 명백히 나쁜 습관이다. 그러나 @MatteoS가 아래에 설명 된 것처럼, 효과 크기 (회귀 추정치)가 항상보고되므로, 나의 주장은 유효하다.)

  2. 현실 세계에서는 거의 귀무 가설이 사실이 아니므로, 유의성 검정을 수행하는 것은 터무니없고 기괴합니다.

    이 문제는 종종 언급되지만 여기서 다시는 연결할 수 없습니다. 연구자들이 그들의 무한대를 증가시키지 않는다는 것을 인식하는 것이 중요하다 . 내가 익숙한 신경 과학 분야에서 사람들은 또는 아마도 실험을 할 것 입니다. 볼 효과가 없다면, 그 효과가 충분히 크지 않다는 결론입니다. 내가 아는 사람 통계적으로 유의하지만 작은 효과 있음을 나타 내기 위해 마리의 쥐를 사육, 훈련, 기록 및 희생하지 않을 것입니다 . 그 반면, 그리고 사실 거의 실제 효과는 정확히 제로가 없다는 것입니다n = 20 n = 50 n = 5000n n=20n=50n=5000 많은 실제 효과가 합리적 연구자들이 실제로 사용하고있는 적절한 표본 크기로 탐지 될 수있을 정도로 작아서 좋은 판단력을 발휘한다는 것은 사실입니다.

    (샘플 크기가 종종 충분히 크지 않고 많은 연구에 힘이 부족하다는 유효한 우려가 있습니다. 따라서 많은 분야의 연구원은 아마도 대신 목표로 삼아야합니다 . 그래도 샘플 크기에 관계없이 , 연구가 감지 할 수있는 효과 크기에 제한을 둡니다.)n = 20n=100n=20

    또한, 나는 실험적 무작위 연구에서 (관찰과는 대조적으로) 적어도 귀무 가설이 참이라는 것에 동의하지 않는다고 생각합니다. 두 가지 이유 :

    • 종종 테스트되고있는 예측에 대한 방향성이 있습니다. 연구원은 어떤 효과가 긍정적 인 임을 증명하려고한다 . 일반적으로 이것은 포인트 널 가정하고 양면 테스트로 수행 되지만 실제로 이것은 을 거부하려고하는 단측 테스트 입니다. (@CliffAB의 답변 +1은 관련 포인트를 제시합니다.) 그리고 이것은 사실 일 있습니다.H 0 : δ = 0 H 0 : δ < 0δ>0H0:δ=0H0:δ<0

    • "nil"null 에 대해서도 이야기하지만 , 왜 그런지 전혀 알 수 없습니다. 어떤 것은 다른 것과 인과 적으로 관련이 없습니다. 지난 몇 년 동안 복제에 실패한 심리학 연구를 살펴보십시오. 미래를 느끼는 사람들; 배란시 붉은 옷을 입은 여성; 보행 속도에 영향을 미치는 노인 관련 단어로 프라이밍; 여기에는 인과 관계가 전혀 없기 때문에 실제 효과는 정확히 제로입니다.H0:δ=0

Norm Matloff 효과 크기를 보여주기 때문에 값 대신 신뢰 구간을 사용하도록 제안 합니다 . 신뢰 구간은 양호하지만 값 과 비교하여 신뢰 구간의 한 가지 단점에 주목하십시오 . 신뢰 구간은 하나의 특정 적용 범위 값에 대해보고됩니다 (예 : . 보고 신뢰 구간은 나를 노하우 폭 넓은 말하지 않는 신뢰 구간이 될 것이다. 그러나 하나의 단일 값은 모든 와 비교할 수 있으며 독자마다 다른 알파를 가질 수 있습니다.p 95 % 95 % 99 % p αpp95%95%99%pα

다시 말해, 신뢰 구간을 사용하는 것을 좋아하는 사람에게는 값이보고하는 데 유용하고 의미있는 추가 통계 라고 생각합니다 .p


필자가 가장 좋아하는 블로거 스콧 알렉산더 (Scott Alexander) 의 의 실용적인 유용성에 대해 긴 인용을 하고 싶습니다. 그는 통계 학자 (정신과 의사)는 아니지만 심리 / 의료 문헌을 읽고 통계를 면밀히 조사한 경험이 풍부합니다. 이 인용문은 내가 추천 하는 가짜 초콜릿 연구에 대한 그의 블로그 게시물에서 나온 것 입니다. 강조합니다.p

[...] 그러나 사용할 수 없다고 가정 합니다. "그렇습니다. 15 명의 사람들과 초콜릿이 인슐린 저항성에 도움이된다는 연구가있었습니다."라고 말하면 내 얼굴이 웃어집니다. 효과 크기가 도움이 될 것입니다. 그러나 내가 당신에게 "초콜릿이 인슐린 저항성을 돕는 것으로 밝혀진 15 명의 사람들에 대한 연구가 있었다고 가정하자. 효과 크기는 " 이었다 . 무작위 노이즈와 일치하는지 여부에 대한 직관이 없습니다. 당신 은요? 자, 그들은 우리가 신뢰 구간을보고해야한다고 말합니다. 효과 크기는 이고 신뢰 구간은0.6 0.6 95 % [ 0.2 , 1.0 ] p 95 % p 0.05p0.60.695%[0.2,1.0]. 괜찮아. 따라서 신뢰 구간의 하한을 확인하면 0과 다릅니다. 그러나 이제 값을 초월하지 않습니다 . 나는 스스로 kludgy 계산을 수행하여 p- 값을 사용하고 있습니다.“ 신뢰 구간은 0을 포함하지 않습니다”는“ 값이 보다 작습니다 ”와 같습니다.p95%p0.05

( 신뢰 구간에 0이 포함되어 있지 않다는 것을 알고 있지만 신뢰 구간에 포함 되는지 궁금해하기 시작 합니다.이 정보를 제공하는 통계 만있는 경우!99 %95%99%

그러나 을 제거하지 않으면 “ hacking”이 방지되지 않습니까? 어쩌면 "d-hacking"을하는 방법 일 것입니다. 20 가지의 다른 대사 매개 변수를 테스트 할 수 없다고 생각하고 효과 크기가 가장 큰 것을보고 할 수 있습니까? 유일한 차이점은 p- 해킹이 완전히 투명하다는 것입니다. 20 번의 테스트를 수행하고 를 하면 나는 당신이 바보임을 알고 있습니다. 그러나 d- 해킹은 불가피 할 것입니다. 20 개의 테스트를 수행하고 그 중 하나가 이라고보고하면 인상적입니까? [...]p p 0.05 d = 0.6ppp0.05d=0.6

그러나 에서 효과 크기로 전환해도 통계적으로 중요한 작은 효과에 대해 사람들이 크게 영향을 미치지 않습니까? 그렇습니다. 그러나 때때로 통계적으로 중요한 작은 효과에 대해 많은 것을 만들고 싶습니다! Coca-Cola가 신제품 첨가제를 테스트하고 있으며 대규모 역학 연구에서 연간 10 만 명당 한 명의 사망자가 발생한다고 가정합니다. 약 0의 효과 크기이지만 통계적으로 여전히 중요 할 수 있습니다. 매년 전 세계적으로 약 10 억 명이 콜라를 마시기 때문에 만명이 사망합니다. 코크스가“네, 효과 크기가 너무 작고, 생각할 가치가 없다”고 말하면 그들은 거의 2 백만 명의 사람들을 죽일 것이다.p


대한 다양한 대안 (베이지안 포함)에 대한 추가 논의에 대해서는 ASA의 답변에서 한계에 대해 논의 합니다. 대안은 무엇입니까?ppp


1
두 번째 주장에 대한 당신의 반응은 요점을 놓칩니다. 실제 연구자들이 표본 크기를 무한정으로 늘릴 것을 제안하는 사람은 없습니다. 요점은 (내가 본 바와 같이) 연구원이 테스트에 관심이있는 "효과 = 0"형식의 귀무 가설은 거짓 일 것이며 귀무 가설이 이미 존재한다면 가설 검정을 수행하는 데는 가치가 거의 없다는 것입니다 거짓으로 알려져 있습니다. 물론 이것은 우리가 실제로 관심이있는 것은 표본의 특성이 아니라 관련 모집단 모수라고 가정합니다.
mark999

1
그러나 나는 "모든 귀무 가설 ...이 거짓이 될 것"은 단지 가정 일 뿐이라는 것을 인정한다.
mark999

1
나는 여기에서의 나의 추론이 비공식적이라는 것을 인정해야하며 결코 공식화하려고 시도하지 않았다. 아마도이 주장이 효과를 발휘하기 위해 흥미롭고 흥미롭지 않은 효과 크기 사이에 명확한 경계가 있다고 말해서는 안됩니다. 오히려 이것은 흥미도가 제로에서 멀어 질수록 계속되는 연속체이며, "합리적인"샘플 크기는 매우 흥미롭지 않은 효과 크기에는 작은 힘을, 매우 흥미로운 것에는 큰 힘을 주어야하지만, 하나의 임계 값은 없습니다. Neyman-Pearson 라인을 따라 정확하게 공식화 할 수 있는지 궁금합니다.
amoeba는

6
어쩌면 당신은 "보고서 것이다 연구 본 적이 없다 효과 크기 [일부 상당]를보고하지 않고 - 값을"하지만 Ziliak와 맥 클로 스키는 300 등의 논문이 한 학술지에 발표 발견, 미국 경제 검토, 두 수십 년 동안 . 이러한 논문은 그들이 본 모든 논문의 70 % 이상을 구성 했습니다. p
Robin Ekman

3
@amoeba : 70 % 클레임의 원천은 2006 년 초록에서 모호한 표현이 될 수 있습니다. "[AER]에서 1980 년대에 출판 된 182 개의 전장 논문 중 70 %는 통계적 중요성과 경제를 구분하지 않았습니다." 두 논문에서 설명했듯이 이것이 의미하는 바는 종종 후자에 대해서만 언급하고 있으며 종속 변수와 관련된 회귀 계수의 크기 (전문 용어의 "경제적 중요성")는 광범위하게 분석되지 않는다는 것입니다. . 그러나 항상보고됩니다. 다음을 반영하여 답변에서 업데이트를 편집하는 것이 좋습니다. :-)
MatteoS

29

나는 다음 두 가지 아이디어에 대해 큰 범죄를 저지 릅니다.

  1. 표본이 클수록 귀무 가설에서 작고 중요하지 않은 이탈에 대한 유의성 테스트가 시작됩니다.

  2. 현실 세계에서는 거의 귀무 가설이 사실이 아니므로, 유의성 검정을 수행하는 것은 터무니없고 기괴합니다.

p- 값에 대한 그러한 밀짚 꾼 논쟁입니다. 통계 개발에 동기를 부여한 근본적인 문제는 추세를보고 우연히보고 있는지 또는 체계적인 추세를 나타내는 지 알고 싶어하는 것입니다.

이를 염두에두고 통계 학자로서 일반적으로 귀무 가설이 참이라고 믿지 않는 것이 사실입니다 (예 : , 여기서 는 두 그룹 간의 일부 측정의 평균 차이). 그러나 양측 검정을 사용하면 어떤 대체 가설이 참인지 알 수 없습니다! 양면 테스트 에서 데이터를보기 전에 을 100 % 확신한다고 기꺼이 말할 수 있습니다 . 그러나 또는 인지는 알 수 없습니다 . 따라서 실험을 수행하고 이라고 결론을 , 우리는 거부했지만 ( 가 말할 수 있듯이 쓸모없는 결론) 더 중요 거부했습니다μ d μ d0 μ d > 0 μ d < 0 μ d > 0 μ d = 0 μ d < 0Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0 (유용한 결론). @amoeba가 지적한 바와 같이, 이는 약물이 긍정적 인 영향을 미치는지 여부를 테스트하는 것과 같이 양면으로 될 가능성이있는 단면 테스트에도 적용됩니다.

이것이 효과의 크기를 나타내지 않는 것은 사실입니다. 그러나 효과의 방향을 알려줍니다. 카트를 말 앞에 두지 마십시오. 효과의 크기에 대한 결론을 그리기 전에 효과의 방향이 정확하다는 확신을 갖고 싶습니다!

마찬가지로, "p- 값이 작고 중요하지 않은 영향에 영향을 미친다"는 주장은 상당히 잘못된 것 같습니다. 데이터가 결론 의 방향 을 얼마나 지원하는지에 대한 척도로서 p- 값을 생각한다면 물론 표본 크기가 충분히 클 때 작은 효과를 취하기를 원합니다. 이것이 유용하지 않다는 것을 의미하는 것은 나에게는 매우 이상합니다. p- 값으로 고통받은 이러한 연구 분야는 추정치의 신뢰성을 평가할 필요가없는 많은 데이터를 가진 것과 같은 것들입니까? 마찬가지로, 문제가 실제로 p- 값이 "작은 효과 크기로 는 경우 가설 및 간단히 테스트 할 수 있습니다H 2 : μ D < - 1H1:μd>1H2:μd<1(1이 최소 중요 효과 크기라고 생각한다고 가정). 이것은 종종 임상 시험에서 수행됩니다.

이것을 더 설명하기 위해 신뢰 구간과 p- 값을 버렸다고 가정 해 봅시다. 신뢰 구간에서 가장 먼저 확인해야 할 것은 무엇입니까? 결과를 너무 심각하게 받아들이 기 전에 효과가 엄격하게 긍정적인지 부정적인지 여부 따라서 p- 값이 없어도 비공식적으로 가설 검정을 수행합니다.

마지막으로 OP / Matloff의 요청에 대해, "p- 값에 대한 설득력있는 주장이 상당히 나아진다"는 질문은 조금 어색하다고 생각합니다. 나는 이것이 당신의 관점에 따라 자동으로 응답하기 때문에 ( "가설을 테스트하지 않는 것보다 낫다는 구체적인 예를 하나 들어주십시오") 때문에 이것을 말합니다. 그러나 거의 부인할 수 없다고 생각되는 특별한 경우는 RNAseq 데이터의 경우입니다. 이 경우, 우리는 일반적으로 두 개의 다른 그룹 (즉, 병에 걸린 대조군)에서 RNA의 발현 수준을보고 두 그룹에서 차등 적으로 발현되는 유전자를 찾으려고 노력하고있다. 이 경우 효과 크기 자체는 실제로 의미가 없습니다. 다른 유전자의 발현 수준이 매우 다양하여 일부 유전자의 경우 2 배 더 높은 발현을 나타내는 것은 아무 의미가 없기 때문입니다. 다른 엄격하게 조절 된 유전자에서는 1.2 배 더 높은 발현이 치명적입니다. 따라서 그룹을 처음 비교할 때 효과 크기의 실제 크기는 실제로 다소 흥미롭지 않습니다. 하지만 당신은정말로, 유전자의 발현이 그룹과 변화의 방향 사이에서 변화하는지 알고 싶습니다! 또한 p- 값보다 신뢰 구간을 사용하여 여러 번의 비교 (단일 실행으로 20,000 회 수행 할 수 있음) 문제를 해결하는 것이 훨씬 더 어렵습니다.


2
효과의 방향을 아는 것 자체가 유용하다는 데 동의하지 않습니다 . 땅에 침을 뱉으면 이것이 식물의 생장을 개선하거나 억제 할 것임을 알고 있습니다 (즉, 효과가 없다는 귀무 가설이 거짓 임). 어떻게없이이 효과의 방향을 알고있다 어떤 도움이 그 크기에 대한 정보? 그러나 이것은 양측 테스트 / 두 개의 단측 테스트 (정렬) 의 p 값이 알려주 는 유일한 것입니다 ! (BTW, 나는 '지상에서 침을 뱉은'예가 몇 년 전에 읽은 p- 값에 대한 논문에서 빌려온 것으로 생각하지만 어느 것을 기억할 수는 없습니다.)
Karl Ove Hufthammer

3
@KarlOveHufthammer : 말 앞에 카트. 효과의 방향을 알고 있기 때문에 멈추지 말아야합니다. 그러나 나는 크기에 대해 걱정하기 전에 방향이 올바른지주의해야합니다. p- 값을 확인하지 않고 추정 효과가 큰 모든 것을 포용함으로써 과학계가 더 나을 것이라고 생각하십니까?
Cliff AB

3
또한, "p- 값이 유용한 정보를 제공하지 않는다"는이 개념은 가설 검정을 부주의하게 사용하는 것입니다. 효과 크기가 1보다 큰 크기 여야한다고 생각되는 경우 및 의 가설을 쉽게 테스트 할 수 있습니다 . (중요한 점이라고 생각하기 때문에 이것을 반영하기 위해 답을 편집했습니다. 제기 해 주셔서 감사합니다)H : μ D < - 1Ha:μd>1Ha:μd<1
Cliff AB

2
편집에서 몇 가지 아주 좋은 점을 지적했습니다. 나는 당신의 대답을 정말로 좋아합니다!
amoeba는

3
내 대답에 작업하는 동안 stats.stackexchange.com/questions/200500 나는 우연히 알 Wagenmakers 등으로 최근의 프리 프레스 가 기본적으로 방향성에 대해 점을 주장한다 : "일방적 인 P 값은 대략적인 시험과 베이지안 해석을 부여 할 수 있습니다 방향성, 즉 잠복 효과가 음성인지 긍정적인지에 대한 테스트입니다. " Wagenmakers는 매우 어려운 베이지안이기 때문에 흥미 롭습니다. 그는 p- 값에 대해 많은 글을 썼습니다. 아직도, 나는 여기에 어떤 개념적 동의를 본다.
amoeba는

6

내 빈정 거림을 용서하십시오. 그러나 p- 값의 유용성에 대한 명백한 좋은 예는 게시하는 것입니다. 나는 p- 값을 생산하기 위해 한 명의 실험자가 내게 접근했다 ... 그는 성장을 개선하기 위해 단일 식물에 트랜스 진을 도입했다. 그 단일 공장에서 그는 여러 클론을 생산하고 전체 집단이 열거 된 예인 가장 큰 클론을 선택했습니다. 그의 질문에, 검토자는이 클론이 가장 큰 p- 값을보고 싶어합니다. 나는이 경우 그가 전체 인구수를 가졌기 때문에 통계가 필요하지 않지만 아무 소용이 없다고 언급했다.

더 진지하게, 저의 겸손한 견해로는, 학문적 관점에서 저는 몇 년 전의 빈민 론자 대 베이지안 논쟁과 마찬가지로 이러한 토론이 흥미롭고 자극적이라는 것을 알았습니다. 그것은이 분야에서 최상의 마음의 다른 관점을 이끌어 내고 일반적으로 쉽게 접근 할 수없는 방법론과 관련된 많은 가정 / 함정을 조명합니다.

실제로, 나는 다른 곳에서 제안 된 것처럼 가장 좋은 접근 방식에 대해 논쟁하고 하나의 결함이있는 척도를 다른 것으로 대체하는 것이 아니라 근본적인 시스템 문제의 계시 일뿐 아니라 최적의 위치를 ​​찾는 데 집중해야한다고 생각합니다. 솔루션. 예를 들어, p- 값과 CI가 서로 보완하는 상황과 하나가 다른 것보다 더 안정적인 상황을 제시 할 수 있습니다. 대단한 계획에서, 모든 추론 도구는 궁극적 인 목표를 향한 진전을 방해하지 않기 위해 모든 응용 프로그램에서 이해해야 할 자체 단점이 있음을 이해합니다. 연구 시스템에 대한 더 깊은 이해.


6

p- 값을 어떻게 사용하고보고해야하는지에 대한 모범 사례를 보여 드리겠습니다. CERN의 LHC ( Large Hadron Collider )에서 신비한 입자를 찾는 것에 대한 최근 보고서입니다 .

몇 달 전에 LHC에서 큰 입자가 감지 될 가능성에 대한 고 에너지 물리계 의 많은 대화 가있었습니다. 이것은 iggs 스 보손 발견 이후 였다는 것을 기억하십시오 . ATLAS Collaboration 2015 년 12 월 15 일자 논문의 "ATLAS 검출기와 √s = 13 TeV에서 pp 충돌 3.2 fb-1에서 광자 쌍으로 감쇠하는 공명 검색" 논문 의 발췌 내용은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

그들이 말하는 것은 이벤트 카운트가 표준 모델이 예측 하는 것을 초과한다는 것 입니다. 논문의 아래 그림은 입자 질량의 함수로서 초과 이벤트의 p- 값을 보여줍니다. p- 값이 약 750 GeV로 어떻게 다이빙하는지 알 수 있습니다. 그래서 그들은 750 기가 eV 와 같은 질량으로 새로운 입자가 감지 될 가능성이 있다고 말합니다 . 그림의 p- 값은 "로컬"로 계산됩니다. 글로벌 p- 값이 훨씬 높습니다. 그래도 대화에는 중요하지 않습니다.

중요한 것은 p- 값이 물리학자가 찾기를 선언하기에는 아직 "충분히 낮지 않은"것이 아니라 흥분하기에 "낮을만큼"낮다는 것입니다. 그래서 그들은 계속 세고 계획을 세우고 p- 값이 더 줄어들기를 기대합니다.

여기에 이미지 설명을 입력하십시오

년 8 월 2016에 몇 달 앞으로 확대 시카고, 회의HEP . 이번에는 CMS Collaboration에서 "√ s = 13 TeV에서 12.9 fb-1의 양성자-충돌 충돌 및 8 및 13 TeV에서 검색의 결합 된 해석을 사용하여 대량의 광자 쌍의 공진 생산 검색" 이라는 새로운 보고서가 발표 되었습니다 . 내 의견과 함께 발췌 부분이 있습니다.

여기에 이미지 설명을 입력하십시오

그래서 사람들은 계속해서 이벤트를 수집했으며 이제 750 GeV에서 초과 이벤트가 사라졌습니다. 아래 논문의 그림은 p- 값을 보여 주며 첫 번째 보고서와 비교하여 p- 값이 어떻게 증가했는지 확인할 수 있습니다. 그래서 그들은 슬프게도 750 GeV에서 입자가 감지되지 않는다고 결론지었습니다.

여기에 이미지 설명을 입력하십시오

이것이 p- 값이 사용되는 방식이라고 생각합니다. 그들은 완전히 말이되고 분명히 작동합니다. 그 이유는 물리학에서 잦은 접근이 본질적으로 자연 스럽기 때문이라고 생각합니다. 입자 산란에 대한 주관적인 것은 없습니다. 당신은 충분히 큰 샘플을 수집하고 그것이 있다면 명확한 신호를 얻습니다.

여기서 정확히 p- 값이 얼마나 정확하게 계산되는지에 대해서는 이 논문을 읽으십시오 : "Cowan et al.


2
모두는 750 GeV 피크가 현실적이고 슬프기를 바랐습니다. 그러나 나는 그것이 변동이 될 것으로 기대하고 (그리고 내기를 할 수 있었으면 좋겠다) 실제로는 안심하고 싶었습니다. 표준 모델이 잘 작동하는 것이 멋지다고 생각합니다. (물리학의 다른 모든 것이 해결되는 것처럼) 표준 모델을 넘어서려 는 불타는 욕구를 이해하지 마십시오 . 어쨌든, +1, 좋은 예입니다.
amoeba는

2

다른 설명은 모두 훌륭합니다. 나는 단지 내 머릿속에 떠오르는 질문에 간단하고 직접적인 대답을하려고했습니다.

무작위 실험에서 공변량 불균형 확인

두 번째 주장 (비현실적인 귀무 가설에 대한)은 무작위 배정이 제대로 완료된 것을 알 수있는 무작위 실험에서 공변량 균형을 확인할 때 적용되지 않습니다. 이 경우 귀무 가설이 참이라는 것을 알고 있습니다. 여러 공변량에 대해 처리 후 대조군과 대조군 사이에 유의 한 차이가있는 경우 (물론 다중 비교를 제어 한 후), 이는 무작위 배정에서 "나쁜 추첨"을 받았으며 인과 적 추정을 신뢰해서는 안된다는 것을 알려줍니다 많은. 이것은 우리가이 특정 "나쁜 추첨"무작위 배정에서 얻은 치료 효과 추정치가 "좋은 추첨"에서 얻은 추정치보다 실제 처리 효과에서 더 멀리 있다고 생각할 수 있기 때문입니다.

이것이 p- 값의 완벽한 사용이라고 생각합니다. p- 값의 정의를 사용합니다. 귀무 가설을 고려할 때 값을 얻을 수있는 확률입니다. 결과가 거의 없을 경우 실제로 "나쁜 추첨"을 얻었습니다.

관측 데이터를 사용하여 인과 추론 (예 : 일치, 자연 실험)을 시도 할 때 균형 테이블 / 통계도 일반적입니다. 이러한 경우에 균형표는 추정치에 "인과 적"레이블을 정당화하기에 충분하지 않습니다.


나는 이것이 p- 값을 완벽하게 사용하는 것에 동의하지 않습니다. "나쁜 추첨"을 어떻게 정의합니까?
mark999

2
@ 마크, 알았어 Matt가 떠나있는 동안 마지막 질문에 대답 할 수 있다고 생각합니다. 물론 샘플. 50 명을 대상으로하는 무작위 실험을 상상해보십시오. 그룹 A의 25 명 모두가 남자로, 그룹 B의 25 명 모두가 여자로 밝혀 졌다고 상상해보십시오. 이것이 연구의 결론에 대해 심각한 의문을 제기 할 수 있다는 것은 명백하다. 이것이 "나쁜 추첨"의 예입니다. Matt는 A와 B의 성별 (공변량) 차이에 대한 테스트를 제안했습니다. Matt의 답변이 어떻게 다르게 해석 될 수 있는지 모르겠습니다. 여기에는 인구가 전혀 없습니다.
amoeba는

1
@ mark999 그러나 12/25와 13/25의 차이에 대한 테스트는 분명히 중요하지 않은 p- 값이 높을 것이므로 여기서 당신의 요점이 무엇인지 확실하지 않습니다. Matt는 테스트를 실행하고 낮은 p- 값을 적신호로 고려할 것을 제안했습니다. 귀하의 예에는 적기가 없습니다. 나는 여기서 멈추고 Matt가 원한다면 대화를 계속할 것이라고 생각한다.
amoeba는

4
아니요. '균형 테스트 오류'를 참조하십시오. gking.harvard.edu/files/matchse.pdf 테스트 통계 자체가 양호 할 수 있지만 (최소 거리 측정으로 사용) p- 값이 감각.
켤레 이전

2
정신과 신경 언어학에서 이에 대한 더 최근의 조사를 위해 새로운 arXiv 프리 프린트가 있습니다. 균형 조정 등을 심의 할 때는 무작위 샘플링이 아니며 테스트를 수행하더라도 표본의 균형이 아닌 모집단의 균형에 대한 다른 추론 적 질문에 답합니다.
Livius 2016 년

2

오류율 관리는 생산 품질 관리와 유사합니다. 생산 라인의 로봇에는 결함이있는 부품을 결정하는 규칙이 있으며, 이는 결함이 발견되지 않은 특정 결함 부품의 비율을 초과하지 않도록합니다. 마찬가지로, "정직한"P- 값을 기반으로 약물 승인을 결정하는 기관은 빈번한 장기적인 테스트 구성을 통해 정의에 따라 허위 거부율을 통제 된 수준으로 유지할 수 있습니다. 여기서 "정직한"은 통제되지 않은 편견, 숨겨진 선택 등이 없음을 의미합니다.

그러나 로봇이나 에이전시 모두 특정 약물이나 조립 컨베이어를 통과하는 부품에 대한 개인적인 지분이 없습니다. 반면에 과학에서는 개인 조사관이 우리가 선호하는 저널의 허위 주장의 비율이 아니라 연구 한 특정 가설에 가장 관심을 기울입니다. P- 값 크기 나 신뢰 구간 (CI)의 경계는보고하는 내용의 신뢰성에 대한 우리의 질문을 직접적으로 언급하지 않습니다. CI 경계를 구성 할 때 두 숫자의 유일한 의미는 다른 과학자들이 연구에서 동일한 종류의 CI 계산을 수행하는 경우 95 % 또는 모든 범위의 연구가 전체적으로 다양한 연구에 걸쳐 유지된다는 것입니다 .

이런 관점에서, 나는 복제 성 위기의 경우, 논문을 제출하는 실제적인 방법으로 연구자들이 논문을 제출하는 것보다 저널 편집자에게 더 가치가 있다는 것을 고려할 때, P- 값이 저널에 의해 "금지"되고 있다는 것은 아이러니하다. 장기적으로 저널에 의해보고 된 가짜 결과의 비율. P- 값은 필터링에 능숙하거나 IJ Good이 썼 듯이 통계 전문가의 후단을 보호하는 데는 좋지만 클라이언트의 후단은 아닙니다.

추신 : 저는 Benjamini와 Hochberg가 여러 테스트를 통해 여러 연구를 통해 무조건적인 기대를한다는 아이디어의 열렬한 팬입니다. 글로벌 "널 (null)"하에서 "빈번한"FDR은 여전히 ​​제어됩니다. 저널에 하나 이상의 거부가있는 연구가 제어 된 비율로 팝업되지만이 경우 일부 거부가 실제로 이루어진 모든 연구의 비율은 1과 같은 허위 거부


1

귀무 가설이 참일 때 p- 값이 유용하다는 Matt에 동의합니다.

내가 생각할 수있는 가장 간단한 예는 난수 생성기를 테스트하는 것입니다. 생성기가 올바르게 작동하는 경우 적절한 크기의 실현을 사용할 수 있으며 많은 표본에 대한 적합치를 검정 할 때 p- 값의 분포가 균일해야합니다. 그렇다면 올바른 구현을위한 좋은 증거입니다. 그렇지 않으면 어딘가에 오류가 발생한 것입니다.

통계 또는 랜덤 변수가 특정 분포를 가져야한다는 것을 알 때 다른 유사한 상황이 발생합니다 (다시 말해서 가장 분명한 상황은 시뮬레이션). p- 값이 균일 한 경우 유효한 구현에 대한 지원을 찾았습니다. 그렇지 않은 경우 코드 어딘가에 문제가 있다는 것을 알고 있습니다.


1

실험적인 고 에너지 물리학에서 p- 값이 유용한 예를 생각할 수 있습니다. 그림 1 참조이 플롯은이 논문에서 발췌 한 것입니다 . LHC에서 ATLAS 검출기를 사용하여 표준 모델 Higgs boson을 검색 할 때 새로운 입자 관찰

5σH125

여기에 이미지 설명을 입력하십시오


1
배경과 원래 질문을 해결하는 방법과 함께 플롯에 대한 자세한 정보를 제공해야합니다. 정보가 충분하지 않습니다.
Greenparker

@Greenparker, 줄거리에 배경을 추가하려고했습니다.
니콜라스 구티에레즈

±1σ
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.