효과 크기가 실제로 p- 값보다 우수합니까?


14

응용 연구에서 p- 값이 아닌 효과 크기 에 의존하고보고하는 데 많은 강조점을두고 있습니다 (예 : 아래 인용문).

그러나 p- 값 과 같은 효과 크기랜덤 변수 이고 동일한 실험이 반복 될 때 샘플마다 다를 수있는 경우가 아닌가? 다시 말해, 어떤 통계적 특징 (예 : 효과 크기가 p- 값보다 샘플마다 덜 가변적 임)이 영향 크기를 p- 값보다 더 나은 증거 측정 지수로 만드는지 묻고 있습니까?

그러나 p- 값을 효과 크기와 구분하는 중요한 사실을 언급해야합니다. 즉, 효과 크기는 모집단 모수가 있기 때문에 추정 할 것이지만 p- 값은 모집단 모수가 없기 때문에 추정 할 것이 없습니다.

나에게 효과 크기는 단순히 특정 연구 영역 (예 : 인간 연구)에서 다양한 연구원이 개발 한 측정 도구에서 나온 경험적 결과를 공통 메트릭으로 변환하는 데 도움이되는 메트릭입니다 (이 메트릭을 사용하는 것이 더 적합 할 수 있음) 퀀트 리서치 클럽).

효과 크기로 간단한 비율을 취하면 다음 (R)은 p- 값에 대한 효과 크기의 우위를 나타내는 것입니까? (p- 값은 변하지 만 효과 크기는 변하지 않습니다)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

대부분의 효과 크기는 검정 통계량과 선형으로 관련되어 있습니다. 따라서 효과 크기를 사용하여 귀무 가설 검정을 수행하는 쉬운 단계입니다.

예를 들어, 사전 포스트 디자인으로 인한 통계는 해당 Cohen의 d 효과 크기로 쉽게 변환 될 수 있습니다. 따라서 Cohen d의 분포는 단순히 분포의 규모 위치 버전입니다.

인용문 :

p- 값이 혼동 된 지수이기 때문에 이론적으로 다양한 표본 크기와 100 개의 다른 효과 크기를 가진 100 개의 연구는 각각 동일한 단일 p- 값을 가질 수 있으며, 동일한 단일 효과 크기를 가진 100 개의 연구는 각각 p- 값에 대해 100 개의 다른 값을 가질 수 있습니다 .

또는

p- 값은 샘플마다 다른 랜덤 변수입니다. . . . 결과적으로, 두 개의 별개의 실험 또는 동일한 실험에서 측정 된 두 변수에 대한 테스트의 p- 값을 비교하는 것이 적절하지 않은가?

인용 :

톰슨, 비. (2006). 행동 통계의 기초 : 통찰력 기반 접근 방식. 뉴욕, 뉴욕 : 길 포드 출판사.

Good, PI, & Hardin, JW (2003). 통계의 일반적인 오류 (및 방지 방법) 뉴욕 : 와일리.


12
인용문에서 동일한 결론을 도출하지는 않습니다 (효과 크기가 "우수"또는 p- 값 대신보고되어야 함). 나는 어떤 사람들이 그런 말을함으로써 (예를 들어, BASP는 p- 값에 대한 금지) 과잉 반응을 알고 있습니다. p- 값과 효과 크기가 다른 종류의 유용한 정보를 제공한다는 점을 지적하는 경우입니다. 보통 하나는 다른 쪽의 맥락에서 고려하지 않고 검사해서는 안됩니다.
whuber

1
개인적으로는 견적과 함께 신뢰 구간을보고하는 것으로 충분하다고 생각합니다. 효과 크기 (실제 유의성)와 가설 검정 (통계적 유의성)을 동시에 제공합니다.
Jirapat Samranvedhya

1
p 값 또는 효과 크기가 '우수한'지 여부는 관점에 따라 다릅니다. 전자는 Fisherian NHST 전통을 따르고 후자는 Neyman-Pearson 전통을 따릅니다. 일부 분야 (생물 과학, 인문학)에서는 효과 크기가 매우 작은 경향이있어 p 값이 매력적입니다. 반대로, 다른 사람들이
지적한

3
드라이버가 망치보다 우수합니까?
kjetil b halvorsen

너트가 볼트보다 우수합니까?
Sextus Empiricus

답변:


21

P- 값이 아닌 효과 크기를 제공하기위한 조언은 잘못된 이분법을 기반으로하며 바보입니다. 왜 둘 다 제시하지 않습니까?

과학적 결론은 이용 가능한 증거와 이론에 대한 합리적인 평가에 근거해야합니다. P- 값과 관측 된 효과 크기만으로는 충분하지 않습니다.

당신이 제공 한 인용구들 중 어느 것도 도움이되지 않습니다. 물론 P- 값은 실험마다 다르며, 데이터의 증거 강도는 실험마다 다릅니다. P- 값은 통계 모델을 통해 해당 증거를 수치 적으로 추출한 것입니다. P- 값의 특성을 고려할 때 한 P- 값을 다른 P- 값과 비교하는 것은 분석 목적과 거의 관련이 없으므로 인용 저자가 전달하려는 것일 수 있습니다.

자신이 P- 값을 비교하고 싶다면 관심있는 질문에 현명하게 대답하기 위해 데이터의 다른 배열에 대해 유의성 테스트를 수행했을 것입니다. 다음 질문을 참조하십시오 P-값 P-값을? 그리고 0에서 한 그룹의 평균 다릅니다가 있지만, 다른 하나는하지 않습니다, 우리는 그룹이 다른 것으로 결론을 내릴 수 있다면?

따라서 귀하의 질문에 대한 답변은 복잡합니다. P- 값 또는 효과 크기를 기반으로 데이터에 대한 이분법적인 반응이 유용하지 않다고 생각하여 효과 크기가 P- 값보다 우수합니까? 예, 아니요, 때로는 어쩌면 아마도 목적에 달려 있습니다.


분석가가 현재 연구에 의미있는 효과의 크기를 정확하게 설명 할 수 있다면 효과 크기와 신뢰 구간을 제시하는 것이 바람직하다고 생각합니다. p- 값과 달리 신뢰 구간은 독자에게 추정의 정확성과 사지의 정확도를 제공합니다.
AdamO

1
@AdamO 예, 크게 동의하지만 P- 값에는 두 가지 제안 사항이 있으므로 생략하면 안됩니다. 그것은 경험이 많은 눈으로 신뢰 구간에서만 얻을 수있는 null에 대한 증거의 강도에 대한 지표이며 정확한 P 값은 신뢰 구간이하는 내부 / 외부의 이분법을 직접 초대하지 않습니다. . 물론 우도 함수는 둘 다에 비해 이점을 제공합니다.
Michael Lew

14

응용 연구의 맥락에서, 독자들이 연구 결과의 실제적 중요성 (통계적 중요성과 반대)을 해석하기 위해서는 효과 크기가 필요합니다. 일반적으로 p- 값은 효과 크기보다 샘플 크기에 훨씬 더 민감합니다. 실험이 효과 크기를 정확하게 측정하는 경우 (즉, 추정되는 모집단 모수에 충분히 가깝지만) 유의하지 않은 p- 값을 산출하면 모든 것이 같고 표본 크기를 늘리면 효과 크기는 동일하지만 더 낮은 p- 값. 이는 전력 분석 또는 시뮬레이션으로 시연 할 수 있습니다.

이에 비추어, 실질적인 의미가없는 효과 크기에 대해 매우 중요한 p- 값을 달성 할 수 있습니다. 반대로 저전력의 연구 설계는 실질적으로 중요한 효과 크기에 대해 중요하지 않은 p- 값을 생성 할 수 있습니다.

특정한 실제 적용 없이는 효과 크기에 대한 통계적 유의성 개념을 논의하기가 어렵습니다. 예를 들어, 새로운 학습 방법이 학생의 학점 평균 (GPA)에 미치는 영향을 평가하는 실험을 고려하십시오. 0.01 등급의 효과 크기는 실질적인 의미가 거의 없다고 주장합니다 (즉, 2.51과 비교하여 2.50). 치료군과 대조군에서 모두 2,000 명의 표본 크기를 가정하고 인구 표준 편차가 0.5 점으로 가정합니다.

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

처리 샘플 평균 = 2.51

대조군 샘플 평균 = 2.50

효과 크기 = 2.51-2.50 = 0.01

p = 0.53

표본 크기를 20,000 명으로 늘리고 다른 모든 것을 일정하게 유지하면 중요한 p- 값이 산출됩니다.

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

처리 샘플 평균 = 2.51

대조군 샘플 평균 = 2.50

효과 크기 = 2.51-2.50 = 0.01

p = 0.044

분명히 샘플 크기를 몇 배나 늘리는 것은 사소한 일이 아닙니다! 그러나, 나는이 연구 방법이 제공하는 실질적인 개선이 무시할 만하다는 것에 모두 동의 할 수 있다고 생각합니다. 우리가 p- 값에만 의존한다면 n = 20,000의 경우를 믿게 될 것입니다.

개인적으로 저는 p- 값과 효과 크기를 모두보고하도록 옹호합니다. t- 또는 F- 통계, 자유도 및 모델 진단을위한 보너스 포인트!


2
대런, R이나 PO와 같은 의미를 정확히 보여주세요.
user138773

7
@Darrent James 불행히도 p = 0.05가 명쾌한 선이라는 p = 0.065와 p = 0.043의 차이에는 실질적인 중요성이 없습니다. P- 값은 그 자체로 또는 그에 대한 강력한 증거를 나타내지 않습니다.
Michael Lew

@Michael Lew 예, 동의합니다!
대런 제임스

1
제임스, 당신의 코드와 설명을 감안할 때, 당신은 OP의 요점을 완전히 오해 한 것 같습니다. R 코드도 잘못되었습니다! s가 동일한 var.equal = TRUE동안 설정하지 않았으므로 sd. 그런 배경으로 왜 당신이 이와 같은 응답을 게시했는지 잘 모르겠습니다. OP는 현재 적어도 쉬운 답변이없는 질문을합니다!
user138773

1
코드에 var.equal = TRUE를 추가했습니다. 그러나이 경우에는 불필요합니다. var.equal = TRUE 및 기본 var.equal = FALSE를 사용하여 동일한 p- 값을 얻습니다.
대런 제임스

5

현재 데이터 과학 분야에서 일하고 있으며 그 전에는 교육 연구 분야에서 일했습니다. 각 "경력"에서 통계의 공식적 배경에서 오지 않은 사람들과 통계적 (실용적) 중요성이 p- 값 에 크게 강조되는 사람들과 협력했습니다 . 통계적 중요성과 실제적 중요성 사이에 차이가 있기 때문에 분석에서 효과 크기를 포함하고 강조하는 법을 배웠습니다.

일반적으로, 제가 함께 일했던 사람들은 "프로그램 / 기능이 영향을 미치나요?" 이와 같은 질문에 대해 t- 테스트와 같은 간단한 작업을 수행하고 "예, 프로그램 / 기능이 차이를 만듭니다"라고보고 할 수 있습니다. 그러나이 "차이"는 얼마나 크거나 작습니까?

먼저,이 주제에 대해 알아보기 전에 효과 크기를 말할 때 언급 한 내용을 요약하고 싶습니다.

효과 크기 는 단순히 두 그룹 간의 차이 크기를 정량화하는 방법입니다. [...] 일부 비교와 비교하여 특정 개입의 효과를 정량화하는 데 특히 유용합니다. 그것은 우리가 단순한 것이 아니라 '작동합니까?' 훨씬 더 정교하게 '다양한 상황에서 얼마나 잘 작동합니까?' 또한 통계적 유의성 (효과 크기와 표본 크기를 팽팽하게하는 것)이 아니라 개입의 가장 중요한 측면 (효과 크기)에 중점을 두어 지식 축적에 대한 과학적 접근을 촉진합니다. 이러한 이유로 효과 크기는 효과를보고하고 해석하는 데 중요한 도구입니다.

효과 크기, 바보 : 효과 크기는 무엇이고 왜 중요한가

α

왜 P Value가 충분하지 않습니까?

통계적 유의성은 두 그룹 간의 관측 된 차이가 우연에 의한 확률입니다. IF로 P의 값을 선택한 알파 수준 (예 : 0.05)보다 큰 임의의 관측 된 차이는 다양성을 샘플링하여 설명하는 것으로한다. 충분히 큰 표본의 경우, 효과가 전혀없는 경우, 즉 효과 크기가 정확히 0 인 경우 통계 테스트는 거의 항상 유의미한 차이를 나타냅니다. 그럼에도 불구하고 매우 작은 차이는 종종 의미가 없습니다. 따라서 분석에 중요한 P 값만보고하는 것은 독자가 결과를 완전히 이해하는 데 적합하지 않습니다.

그리고 큰 표본 크기에 대한 @DarrenJames의 의견을 뒷받침합니다.

예를 들어 표본 크기가 10,000 인 경우 그룹 간 결과 차이가 무시할 수 있고 다른 사람에 비해 값 비싸거나 시간이 많이 걸리는 개입을 정당화 할 수없는 경우에도 상당한 P 값을 찾을 수 있습니다. 그 자체로 유의 수준은 효과 크기를 예측하지 않습니다. 유의성 검정과 달리 효과 크기는 표본 크기와 무관합니다. 반면 통계적 유의성은 샘플 크기와 효과 크기에 따라 다릅니다. 이러한 이유로, P 값은 샘플 크기에 의존하기 때문에 혼동되는 것으로 간주됩니다. 때때로 통계적으로 유의미한 결과는 거대한 표본 크기 만 사용되었음을 의미합니다. [이 행동이 귀무 가설에 대한 편견을 나타낸다는 잘못된 견해가 있습니다.빈번한 가설 검정이 충분히 큰 표본으로 귀무 가설을 기각하는 방향으로 편향되는 이유는 무엇입니까? ]

효과 크기 사용 또는 P 값이 충분하지 않은 이유

P- 값과 효과 크기 모두보고

이제 질문에 대답하기 위해 효과 크기 가 p- 값 보다 우수 합니까? 나는 이들 각각이 통계적 분석에서 이러한 용어로 비교할 수없는 중요한 구성 요소로 작용하며 함께보고되어야한다고 주장한다. , P 값 (널 분포의 차이) 통계적 유의성을 나타내는 통계 단어에 효과 크기 둔다가 얼마나 차이이다.

예를 들어, 통계에 친숙하지 않은 관리자 인 Bob은 wt (무게)와 mpg (갤런 / 마일 ) 사이에 중요한 관계가 있는지 확인하는 데 관심이 있다고 말합니다 . 가설을 사용하여 분석을 시작합니다

H0:β미디엄=0 vs H:β미디엄0

에서 테스트 중α=0.05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβ미디엄0

따라서 결과가 통계적으로 유의하다는 결론을 내릴 수 있었고 그 의미를 실제 용어로 전달할 수있었습니다.

이것이 귀하의 질문에 대답하는 데 도움이 되었기를 바랍니다.


존, 고마워요. 더 많은 정보를 듣고 싶었지만 그렇지 않은 회색 영역이 많이 있습니다. 많은 상황에서 효과 크기와 p- 값이 일치하지 않습니다. 그 이유를 알고 싶었던 상황에서 많은 신뢰 효과 크기. 중요한 점을 보여줄 수있는 시뮬레이션에 대해 더 많이 듣고 싶었습니다. 제기 한 문제와 관련하여, 즉 효과 크기는 작지만 정확히 0은 아닙니다. 동등성 시험 방법은 몇 년 동안 시행되어왔다. 나는 베이지안 동등성 테스트를 훨씬 더 좋아합니다. 어쨌든, 아마도 내 질문을 충분히 명확하게 묻지 않았을 것입니다. -감사합니다
rnorouzian

동료 인 BTW는 Daren의 R 코드가 잘못되었다고 말했습니다. 그는 넣지 않았다 var.equal = TRUE.
rnorouzian

* 많은 상황에서 효과 크기와 p- 값이 일치하지 않습니다. *-이에 대한 자세한 정보를 제공 할 수 있습니까? 예를 들어? 제기 한 문제와 관련하여, 즉 효과 크기는 작지만 정확히 0아닐 수 있습니다. 이러한 상황은 샘플 크기가 커질 수 있습니다. 따라서 효과 크기가 거의 0이면 관심 변수가 결과에 크게 영향을 미치지 않거나 관계가 잘못 지정 될 수 있습니다 (예 : 선형 대 비선형).
Jon

이 도구를 사용해보십시오 . 이 문서를 참조하십시오 . 명확성을 위해 코드를 사용하여 나중에 다른 질문을해야 할 것 같습니다. -- 감사합니다.
rnorouzian '

@rnorouzian, 알았어, 난 당신의 코드를 실행했습니다. 너의 요점이 뭐야?
Jon

4

p- 값에 대한 효과 크기의 유용성 (및 다른 통계적 추론 메트릭스)은 내 분야 (정신 학)에서 일상적으로 논의되고 있으며, 귀하의 질문과 관련된 이유로 토론은 현재 평소보다“호 터링”입니다. 심리학이 ​​반드시 통계적으로 가장 정교한 과학 분야 일 필요는 없다고 생각하지만, 통계적 추론에 대한 다양한 접근 방식의 제한이나 적어도 인간의 사용에 의해 제한되는 방법을 쉽게 논의하고 연구하고 때로는 시연했습니다. 이미 게시 된 답변에는 좋은 통찰력이 포함되어 있지만 각각에 대한 이유와 반대에 대한보다 광범위한 목록 (및 참조)에 관심이있는 경우 아래를 참조하십시오.

p- 값이 바람직하지 않은 이유는 무엇입니까?

  • 대런 제임스 (및 그의 시뮬레이션에서 알 수 있듯이) p- 값은 관측치의 수에 크게 좌우됩니다 (Kirk, 2003 참조).
  • Jon이 지적한 것처럼 p- 값은 귀무 가설이 참인 경우 데이터를 극단적으로 또는 더 극단적으로 관찰 할 수있는 조건부 확률을 나타냅니다. 대부분의 연구자들은 오히려 연구 가설 및 / 또는 귀무 가설의 확률을 가지기 때문에 p- 값은 연구자들이 가장 관심이있는 확률 (즉, 귀무 또는 연구 가설의 경우, Dienes, 2008 참조)에 대해서는 언급하지 않습니다.
  • p- 값을 사용하는 많은 사람들은 그 의미 / 의미를 이해하지 못합니다 (Schmidt & Hunter, 1997). Gelman and Stern (2006)의 논문에 대한 Michael Lew의 언급은 p- 값으로 해석 할 수있는 (또는 해석 할 수없는) 것에 대한 연구원의 오해를 더욱 강조합니다. 그리고 FiveThirtyEight에 대한 비교적 최근의 이야기에서 알 수 있듯이, 이것은 여전히 그렇습니다 .
  • p- 값은 후속 p- 값을 예측하는 데 좋지 않습니다 (Cumming, 2008)
  • p- 값은 종종 잘못보고되고 (더 자주 의미가 부풀려 ), 잘못보고하면 데이터를 공유하지 않으려합니다 (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
  • p- 값은 분석적 유연성을 통해 적극적으로 왜곡 될 수 있으며 신뢰할 수 없습니다 (John et al., 2012; Simmons et al., 2011).
  • 학술 시스템이 과학자들에게 과학적 정확성에 대한 통계적 중요성에 대해 보상하는 것으로 보임에 따라 p- 값은 불균형 적으로 중요합니다 (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

효과 크기가 바람직한 이유는 무엇입니까?

연구자들이 연구 결과를“INTO A COMMON metric”으로 변환 할 수 있도록 표준화 된 효과 크기를 구체적으로 언급하는 것으로 귀하의 질문을 해석하고 있습니다.

  • Jon과 Darren James가 지적한 것처럼, 효과 크기는 효과의 존재 여부에 대한 이분법적인 결정을 내리는 것과는 달리 관측 횟수 (American Psychological Association 2010; Cumming, 2014)와 상관없이 효과의 크기를 나타냅니다 .
  • 효과 크기는 메타 분석이 가능하고 메타 분석이 누적 지식을 유발 하기 때문에 중요합니다 (Borenstein et al., 2009; Chan & Arvey, 2012)
  • 효과 크기는 선험적 전력 분석을 통해 표본 크기 계획을 용이하게 하여 연구에서 효율적인 자원 할당을 도와줍니다 (Cohen, 1992)

p- 값이 바람직한 이유는 무엇입니까?

덜 자주 후원 받지만 p- 값에는 여러 가지 특권이 있습니다. 일부는 잘 알려져 있고 오래 지속되는 반면 다른 것들은 비교적 새롭습니다.

  • P- 값은 통계 모델 귀무 가설에 대한 편리하고 친숙한 증거 강도 지수를 제공합니다.

  • p- 값을 올바르게 계산하면 이분법적인 결정을 내리는 수단을 제공하고 (필요한 경우도 있음) p- 값을 사용하면 장기 오 탐지 오류율을 수용 가능한 수준으로 유지할 수 있습니다 (Dienes, 2008; Sakaluk, 2016) [It 이분법적인 결정에는 P- 값이 필요하다고 말하는 것이 엄격하지 않습니다. 그것들은 실제로 그렇게 널리 사용되지만 Neyman & Pearson은 테스트 통계 공간에서 '핵심 영역'을 사용했습니다. 참조 이 질문 과 답변을]

  • p- 값은 일회성 전력 분석뿐만 아니라 지속적으로 효율적인 샘플 크기 계획을 용이하게하는 데 사용될 수 있습니다 (Lakens, 2014)
  • p- 값은 메타 분석을 촉진하고 증거 값을 평가하는 데 사용될 수 있습니다 (Simonsohn et al., 2014a; Simonsohn et al., 2014b). p- 값 분포를 이러한 방식으로 사용하는 방법과 관련 토론을위한 이력서 게시물에 대한접근 가능한 토론은 이 블로그 게시물 을참조하십시오.
  • p- 값은 법 의학적으로 사용되어 의심스러운 연구 관행이 사용되었을 수 있는지 여부와 복제 가능한 결과가 어떻게 나타나는지 판단 할 수 있습니다 (Schimmack, 2014; Schönbrodt의 앱, 2015 참조)

효과 크기가 바람직하지 않은 이유는 무엇입니까?

아마도 많은 사람들에게 가장 반 직관적 인 입장 일 것입니다. 표준화 된 효과 크기를보고하는 것이 바람직하지 않거나 최소한 과대 평가 된 이유는 무엇입니까?

  • 경우에 따라 표준화 된 효과 크기가 크래킹되지 않은 것은 아닙니다 (예 : Greenland, Schlesselman, & Criqui, 1986). 특히 Baguely (2009)는 미가공 / 표준화되지 않은 효과 크기가 더 바람직한 이유에 대해 잘 설명하고 있습니다.
  • 사전 전력 분석에 유용하지만, 효과 크기는 효율적인 표본 크기 계획을 용이하게하기 위해 실제로 안정적으로 사용되지 않습니다 (Maxwell, 2004)
  • 효과 크기가 샘플 크기 계획에 사용되는 경우에도 게시 바이어스를 통해 팽창되기 때문에 (Rosenthal, 1979) 게시 된 효과 크기는 신뢰할 수있는 샘플 크기 계획을위한 의심스러운 유틸리티 (Simonsohn, 2013).
  • 효과 크기 추정치는 통계 소프트웨어에서 체계적으로 잘못 계산 될 수 있으며 현재 까지도 계산되지 않았습니다 (Levine & Hullet, 2002)
  • 효과 크기가 실수로 추출되어 잘못보고되어 메타 분석의 신뢰성을 떨어 뜨립니다 (Gøtzsche et al., 2007)
  • 마지막으로, 효과 크기에서 출판 편향을 수정하는 것은 여전히 ​​유효하지 않습니다 (Carter et al., 2017 참조).

요약

마이클 류 (Michael Lew)의 주장을 반박하면 p- 값과 효과 크기는 단지 두 가지 통계적 증거 일뿐입니다. 고려해야 할 다른 것들도 있습니다. 그러나 p- 값 및 효과 크기와 마찬가지로 다른 증거 가치 메트릭도 공유되고 고유 한 문제가 있습니다. 예를 들어, 연구원은 일반적으로 신뢰 구간을 잘못 적용하고 잘못 해석합니다 (예 : Hoekstra et al., 2014; Morey et al., 2016) .P- 값 (예 : Simonsohn)을 사용할 때와 마찬가지로 베이지안 분석 결과는 연구원에 의해 왜곡 될 수 있습니다. , 2014).

모든 증거 측정 기준이 이겼으며 모두 상을 받아야합니다.

참고 문헌

미국 심리 학회. (2010). 미국 심리 학회 (6 차 개정판)의 출판 매뉴얼. 워싱턴 DC : 미국 심리 학회.

Baguley, T. (2009). 표준화 또는 단순 효과 크기 : 무엇을보고해야합니까?. 영국 심리학 저널, 100 (3), 603-617.

Bakker, M. & Wicherts, JM (2011). 심리학 저널의 통계 결과에 대한 (미스)보고. 행동 연구 방법, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). 메타 분석 소개. 영국 웨스트 서 섹스 : John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 8 월 12 일). 심리학의 편견 교정 : 메타 분석 방법 비교. osf.io/preprints/psyarxiv/9h3nu에서 검색

Chan, ME, & Arvey, RD (2012). 메타 분석 및 지식 개발. 심리학에 대한 관점, 7 (1), 79-92.

코헨, J. (1992). 파워 프라이머. 심리 게시판, 112 (1), 155-159. 

Cumming, G. (2008). 복제 및 p 구간 : p 값은 미래를 모호하게 예측하지만 신뢰 구간은 훨씬 더 좋습니다. 심리 과학에 대한 관점, 3, 286–300.

Dienes, D. (2008). 과학으로서의 심리학 이해 : 과학 및 통계적 추론에 대한 소개. 뉴욕, 뉴욕 : Palgrave MacMillan.

Fanelli, D. (2010). "긍정적 인"결과는 과학의 계층 구조를 증가시킵니다. PloS 1, 5 (4), e10068.

Gelman, A., & Stern, H. (2006). "유의"와 "유의하지 않은"의 차이는 그 자체로는 통계적으로 유의하지 않습니다. 미국 통계 학자, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). 표준화 된 평균 차이를 사용하는 메타 분석의 데이터 추출 오류. JAMA, 298 (4), 430-437.

Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). 효과 측정 값으로 표준화 된 회귀 계수 및 상관 관계를 사용하는 오류. 미국 역학 저널, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN 및 Wagenmakers, EJ (2014). 신뢰 구간에 대한 잘못된 오해. 심리학 적 게시판 및 검토, 21 (5), 1157-1164.

John, LK, Loewenstein, G., & Prelec, D. (2012). 진실한 이야기에 대한 인센티브로 의심스러운 연구 관행의 유병률을 측정합니다. 심리 과학, 23 (5), 524-532.

커크, RE (2003). 효과 크기의 중요성. SF Davis (Ed.), 실험 심리학 연구 방법 핸드북 (pp. 83–105). Malden, MA : 블랙웰.

Lakens, D. (2014). 순차적 분석으로 고성능 연구를 효율적으로 수행합니다. 유럽 ​​사회 심리학 저널, 44 (7), 701-710.

CR (Levine, TR, & CR) (2002). 커뮤니케이션 연구에서 이타 제곱, 부분 에타 제곱 및 효과 크기의 오보. 인간 커뮤니케이션 연구, 28 (4), 612-625.

Maxwell, SE (2004). 심리학 연구에서 저력 연구의 지속성 : 원인, 결과 및 구제. 심리학 적 방법, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD 및 Wagenmakers, EJ (2016). 신뢰 구간에 신뢰를 두는 오류. 심리학 적 게시판 및 검토, 23 (1), 103-123.

Nosek, BA, Spies, JR, & Motyl, M. (2012). 과학적 유토피아 : II. 출판 가능성보다 진실을 장려하기 위해 인센티브와 관행을 재구성합니다. 심리학의 관점, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S. & Wicherts, JM (2016). 심리학에서 통계적보고 오류의 유병률 (1985–2013). 행동 연구 방법, 48 (4), 1205-1226.

Rosenthal, R. (1979). 파일 드로어 문제점 및 널 결과에 대한 허용 오차. 심리 게시판, 86 (3), 638-641.

JK 사칼 루크 (2016). 작고 확고한 탐구 : 누적되고 복제 가능한 심리적 연구를 발전시키기위한 새로운 통계의 대안 시스템. 실험적 사회 심리학 저널, 66, 47-54.

Schimmack, U. (2014). 통계적 연구 무결성 정량화 : 복제 성 지수. http://www.r-index.org 에서 검색 

슈미트, 플로리다, & 헌터, JE (1997). 연구 데이터 분석에서 유의성 테스트 중단에 대한 8 가지 일반적이지만 잘못된 반대. LL Harlow, SA Mulaik 및 JH Steiger (Eds.)에서 유의성 검정이 없으면 어떻게합니까? (pp. 37-64). 마하와, 뉴저지 : 엘 바움.

Schönbrodt, FD (2015). p-checker : 일체형 p- 값 분석기. http://shinyapps.org/apps/p-checker/ 에서 검색했습니다 . 

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). 거짓 양성 심리학 : 데이터 수집 및 분석에 공개되지 않은 유연성으로 중요한 것을 제시 할 수 있습니다. 심리학, 22 (11), 1359-1366.

미국 Simonsohn (2013). 관찰 된 효과 크기에 따라 복제를 강화하는 어리 석음. 에서 입수해온 http://datacolada.org/4

미국 Simonsohn (2014). 후부 해킹. http://datacolada.org/13 에서 검색했습니다 .

Simonson, U., Nelson, LD, & Simmons, JP (2014). P- 곡선 : 파일 서랍의 키입니다. 실험 심리학 저널 : 일반, 143 (2), 534-547.

Simonson, U., Nelson, LD, & Simmons, JP (2014). P- 곡선 및 효과 크기 : 중요한 결과 만 사용하여 게시 바이어스를 수정합니다. 심리학의 관점, 9 (6), 666-681.

Wicherts, JM, Bakker, M., & Molenaar, D. (2011). 연구 데이터를 공유하려는 의지는 증거의 강도와 통계 결과보고의 품질과 관련이 있습니다. PloS 1, 6 (11), e26828.


2
아주 좋은 아이디어와 참고 자료 모음. 좀 더 파고 싶은 사람들에게는 도움이 될 것이지만 많은 포인트 가이 사이트에서 관련 질문과 답변을 가지고 있습니다. 그것들에 대한 링크도 도움이 될 것입니다.
Michael Lew

@MichaelLew 감사합니다. 나중에 시간이있을 때 몇 가지 링크를 추가하는 방법에 대해 살펴 보겠습니다. 오후에이 응답을 작성하고 참조를 작성하는 데 도움이되었습니다. 편집과 관련하여 귀하의 요점은 잘 맞았지만 수정과는 달리 더 많은 추가 사항이 있다고 생각합니까? 나는 P-값을 제공했다 (그들은 "이 필요합니다", 또는 그렇게하는 유일한 방법입니다하지 않는 것이) 이분법 적 의사 결정의 수단을. NP 임계 영역이 다른 방법이라는 데 동의하지만, 표준화 된 효과 크기에 비해 p- 값이 제공하는 것과 관련하여 OP에 응답했습니다.
jsakaluk

1
jsakaluk, 예, 답변에 오랜 시간을 보냈으며 매우 유용하고 노력할 가치가 있음을 알 수 있습니다. "올바르게 사용될 때"라고 적었 기 때문에 P- 값의 장점에 대해 항목을 편집했지만,이 방법은 P- 값으로 인코딩 된 많은 정보를 무시하므로 논란의 여지가 있습니다. 내 의견으로는) 잘못된 사용. 나는 당신의 의도를 왜곡하고 싶지 않아서 "사용"을 "계산"으로 변경했습니다.
Michael Lew

3

역학자의 관점에서 p- 값보다 효과 크기를 선호하는 이유는 무엇입니까 (일부 사람들이 지적했듯이 잘못된 이분법입니다).

  1. 효과 크기는 실제로 원하는 것을 알려줍니다. p- 값 은 null과 구별 할 수 있는지 알려줍니다. 1.0001, 1.5, 5 및 50의 상대 위험은 모두 동일한 p- 값과 관련이있을 수 있지만 모집단 수준에서해야 할 일과 관련하여 크게 다른 것을 의미합니다.
  2. p- 값에 의존한다는 것은 유의성 기반의 가설 검정이 최후의 증거라는 개념을 강화합니다. 다음과 같은 두 가지 진술을 고려하십시오. "환자에게 웃는 의사는 입원 기간 동안 부정적인 결과와 크게 관련이 없었습니다." "의사에게 미소를 지은 환자는 부작용이있을 가능성이 50 % 적었다 (p = 0.086)." 비용이 전혀 들지 않는다면 의사가 환자에게 미소를 지을 것을 제안하는 것을 고려해보십시오.
  3. 샘플 크기는 컴퓨팅 능력과 인내심의 함수이며 p- 값은 본질적으로 의미가없는 많은 확률 적 시뮬레이션 모델을 사용합니다. 임상 적 또는 공중 보건 관련성이 전혀없는 것에 대해 p <0.05의 결과를 얻었습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.