p- 값에 대한 효과 크기의 유용성 (및 다른 통계적 추론 메트릭스)은 내 분야 (정신 학)에서 일상적으로 논의되고 있으며, 귀하의 질문과 관련된 이유로 토론은 현재 평소보다“호 터링”입니다. 심리학이 반드시 통계적으로 가장 정교한 과학 분야 일 필요는 없다고 생각하지만, 통계적 추론에 대한 다양한 접근 방식의 제한이나 적어도 인간의 사용에 의해 제한되는 방법을 쉽게 논의하고 연구하고 때로는 시연했습니다. 이미 게시 된 답변에는 좋은 통찰력이 포함되어 있지만 각각에 대한 이유와 반대에 대한보다 광범위한 목록 (및 참조)에 관심이있는 경우 아래를 참조하십시오.
p- 값이 바람직하지 않은 이유는 무엇입니까?
- 대런 제임스 (및 그의 시뮬레이션에서 알 수 있듯이) p- 값은 관측치의 수에 크게 좌우됩니다 (Kirk, 2003 참조).
- Jon이 지적한 것처럼 p- 값은 귀무 가설이 참인 경우 데이터를 극단적으로 또는 더 극단적으로 관찰 할 수있는 조건부 확률을 나타냅니다. 대부분의 연구자들은 오히려 연구 가설 및 / 또는 귀무 가설의 확률을 가지기 때문에 p- 값은 연구자들이 가장 관심이있는 확률 (즉, 귀무 또는 연구 가설의 경우, Dienes, 2008 참조)에 대해서는 언급하지 않습니다.
- p- 값을 사용하는 많은 사람들은 그 의미 / 의미를 이해하지 못합니다 (Schmidt & Hunter, 1997). Gelman and Stern (2006)의 논문에 대한 Michael Lew의 언급은 p- 값으로 해석 할 수있는 (또는 해석 할 수없는) 것에 대한 연구원의 오해를 더욱 강조합니다. 그리고 FiveThirtyEight에 대한 비교적 최근의 이야기에서 알 수 있듯이, 이것은 여전히 그렇습니다 .
- p- 값은 후속 p- 값을 예측하는 데 좋지 않습니다 (Cumming, 2008)
- p- 값은 종종 잘못보고되고 (더 자주 의미가 부풀려 짐 ), 잘못보고하면 데이터를 공유하지 않으려합니다 (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
- p- 값은 분석적 유연성을 통해 적극적으로 왜곡 될 수 있으며 신뢰할 수 없습니다 (John et al., 2012; Simmons et al., 2011).
- 학술 시스템이 과학자들에게 과학적 정확성에 대한 통계적 중요성에 대해 보상하는 것으로 보임에 따라 p- 값은 불균형 적으로 중요합니다 (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
효과 크기가 바람직한 이유는 무엇입니까?
연구자들이 연구 결과를“INTO A COMMON metric”으로 변환 할 수 있도록 표준화 된 효과 크기를 구체적으로 언급하는 것으로 귀하의 질문을 해석하고 있습니다.
- Jon과 Darren James가 지적한 것처럼, 효과 크기는 효과의 존재 여부에 대한 이분법적인 결정을 내리는 것과는 달리 관측 횟수 (American Psychological Association 2010; Cumming, 2014)와 상관없이 효과의 크기를 나타냅니다 .
- 효과 크기는 메타 분석이 가능하고 메타 분석이 누적 지식을 유발 하기 때문에 중요합니다 (Borenstein et al., 2009; Chan & Arvey, 2012)
- 효과 크기는 선험적 전력 분석을 통해 표본 크기 계획을 용이하게 하여 연구에서 효율적인 자원 할당을 도와줍니다 (Cohen, 1992)
p- 값이 바람직한 이유는 무엇입니까?
덜 자주 후원 받지만 p- 값에는 여러 가지 특권이 있습니다. 일부는 잘 알려져 있고 오래 지속되는 반면 다른 것들은 비교적 새롭습니다.
P- 값은 통계 모델 귀무 가설에 대한 편리하고 친숙한 증거 강도 지수를 제공합니다.
p- 값을 올바르게 계산하면 이분법적인 결정을 내리는 수단을 제공하고 (필요한 경우도 있음) p- 값을 사용하면 장기 오 탐지 오류율을 수용 가능한 수준으로 유지할 수 있습니다 (Dienes, 2008; Sakaluk, 2016) [It 이분법적인 결정에는 P- 값이 필요하다고 말하는 것이 엄격하지 않습니다. 그것들은 실제로 그렇게 널리 사용되지만 Neyman & Pearson은 테스트 통계 공간에서 '핵심 영역'을 사용했습니다. 참조 이 질문 과 답변을]
- p- 값은 일회성 전력 분석뿐만 아니라 지속적으로 효율적인 샘플 크기 계획을 용이하게하는 데 사용될 수 있습니다 (Lakens, 2014)
- p- 값은 메타 분석을 촉진하고 증거 값을 평가하는 데 사용될 수 있습니다 (Simonsohn et al., 2014a; Simonsohn et al., 2014b). p- 값 분포를 이러한 방식으로 사용하는 방법과 관련 토론을위한 이력서 게시물에 대한접근 가능한 토론은 이 블로그 게시물 을참조하십시오.
- p- 값은 법 의학적으로 사용되어 의심스러운 연구 관행이 사용되었을 수 있는지 여부와 복제 가능한 결과가 어떻게 나타나는지 판단 할 수 있습니다 (Schimmack, 2014; Schönbrodt의 앱, 2015 참조)
효과 크기가 바람직하지 않은 이유는 무엇입니까?
아마도 많은 사람들에게 가장 반 직관적 인 입장 일 것입니다. 표준화 된 효과 크기를보고하는 것이 바람직하지 않거나 최소한 과대 평가 된 이유는 무엇입니까?
- 경우에 따라 표준화 된 효과 크기가 크래킹되지 않은 것은 아닙니다 (예 : Greenland, Schlesselman, & Criqui, 1986). 특히 Baguely (2009)는 미가공 / 표준화되지 않은 효과 크기가 더 바람직한 이유에 대해 잘 설명하고 있습니다.
- 사전 전력 분석에 유용하지만, 효과 크기는 효율적인 표본 크기 계획을 용이하게하기 위해 실제로 안정적으로 사용되지 않습니다 (Maxwell, 2004)
- 효과 크기가 샘플 크기 계획에 사용되는 경우에도 게시 바이어스를 통해 팽창되기 때문에 (Rosenthal, 1979) 게시 된 효과 크기는 신뢰할 수있는 샘플 크기 계획을위한 의심스러운 유틸리티 (Simonsohn, 2013).
- 효과 크기 추정치는 통계 소프트웨어에서 체계적으로 잘못 계산 될 수 있으며 현재 까지도 계산되지 않았습니다 (Levine & Hullet, 2002)
- 효과 크기가 실수로 추출되어 잘못보고되어 메타 분석의 신뢰성을 떨어 뜨립니다 (Gøtzsche et al., 2007)
- 마지막으로, 효과 크기에서 출판 편향을 수정하는 것은 여전히 유효하지 않습니다 (Carter et al., 2017 참조).
요약
마이클 류 (Michael Lew)의 주장을 반박하면 p- 값과 효과 크기는 단지 두 가지 통계적 증거 일뿐입니다. 고려해야 할 다른 것들도 있습니다. 그러나 p- 값 및 효과 크기와 마찬가지로 다른 증거 가치 메트릭도 공유되고 고유 한 문제가 있습니다. 예를 들어, 연구원은 일반적으로 신뢰 구간을 잘못 적용하고 잘못 해석합니다 (예 : Hoekstra et al., 2014; Morey et al., 2016) .P- 값 (예 : Simonsohn)을 사용할 때와 마찬가지로 베이지안 분석 결과는 연구원에 의해 왜곡 될 수 있습니다. , 2014).
모든 증거 측정 기준이 이겼으며 모두 상을 받아야합니다.
참고 문헌
미국 심리 학회. (2010). 미국 심리 학회 (6 차 개정판)의 출판 매뉴얼. 워싱턴 DC : 미국 심리 학회.
Baguley, T. (2009). 표준화 또는 단순 효과 크기 : 무엇을보고해야합니까?. 영국 심리학 저널, 100 (3), 603-617.
Bakker, M. & Wicherts, JM (2011). 심리학 저널의 통계 결과에 대한 (미스)보고. 행동 연구 방법, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). 메타 분석 소개. 영국 웨스트 서 섹스 : John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 8 월 12 일). 심리학의 편견 교정 : 메타 분석 방법 비교. osf.io/preprints/psyarxiv/9h3nu에서 검색
Chan, ME, & Arvey, RD (2012). 메타 분석 및 지식 개발. 심리학에 대한 관점, 7 (1), 79-92.
코헨, J. (1992). 파워 프라이머. 심리 게시판, 112 (1), 155-159.
Cumming, G. (2008). 복제 및 p 구간 : p 값은 미래를 모호하게 예측하지만 신뢰 구간은 훨씬 더 좋습니다. 심리 과학에 대한 관점, 3, 286–300.
Dienes, D. (2008). 과학으로서의 심리학 이해 : 과학 및 통계적 추론에 대한 소개. 뉴욕, 뉴욕 : Palgrave MacMillan.
Fanelli, D. (2010). "긍정적 인"결과는 과학의 계층 구조를 증가시킵니다. PloS 1, 5 (4), e10068.
Gelman, A., & Stern, H. (2006). "유의"와 "유의하지 않은"의 차이는 그 자체로는 통계적으로 유의하지 않습니다. 미국 통계 학자, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). 표준화 된 평균 차이를 사용하는 메타 분석의 데이터 추출 오류. JAMA, 298 (4), 430-437.
Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). 효과 측정 값으로 표준화 된 회귀 계수 및 상관 관계를 사용하는 오류. 미국 역학 저널, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN 및 Wagenmakers, EJ (2014). 신뢰 구간에 대한 잘못된 오해. 심리학 적 게시판 및 검토, 21 (5), 1157-1164.
John, LK, Loewenstein, G., & Prelec, D. (2012). 진실한 이야기에 대한 인센티브로 의심스러운 연구 관행의 유병률을 측정합니다. 심리 과학, 23 (5), 524-532.
커크, RE (2003). 효과 크기의 중요성. SF Davis (Ed.), 실험 심리학 연구 방법 핸드북 (pp. 83–105). Malden, MA : 블랙웰.
Lakens, D. (2014). 순차적 분석으로 고성능 연구를 효율적으로 수행합니다. 유럽 사회 심리학 저널, 44 (7), 701-710.
CR (Levine, TR, & CR) (2002). 커뮤니케이션 연구에서 이타 제곱, 부분 에타 제곱 및 효과 크기의 오보. 인간 커뮤니케이션 연구, 28 (4), 612-625.
Maxwell, SE (2004). 심리학 연구에서 저력 연구의 지속성 : 원인, 결과 및 구제. 심리학 적 방법, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD 및 Wagenmakers, EJ (2016). 신뢰 구간에 신뢰를 두는 오류. 심리학 적 게시판 및 검토, 23 (1), 103-123.
Nosek, BA, Spies, JR, & Motyl, M. (2012). 과학적 유토피아 : II. 출판 가능성보다 진실을 장려하기 위해 인센티브와 관행을 재구성합니다. 심리학의 관점, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S. & Wicherts, JM (2016). 심리학에서 통계적보고 오류의 유병률 (1985–2013). 행동 연구 방법, 48 (4), 1205-1226.
Rosenthal, R. (1979). 파일 드로어 문제점 및 널 결과에 대한 허용 오차. 심리 게시판, 86 (3), 638-641.
JK 사칼 루크 (2016). 작고 확고한 탐구 : 누적되고 복제 가능한 심리적 연구를 발전시키기위한 새로운 통계의 대안 시스템. 실험적 사회 심리학 저널, 66, 47-54.
Schimmack, U. (2014). 통계적 연구 무결성 정량화 : 복제 성 지수. http://www.r-index.org 에서 검색
슈미트, 플로리다, & 헌터, JE (1997). 연구 데이터 분석에서 유의성 테스트 중단에 대한 8 가지 일반적이지만 잘못된 반대. LL Harlow, SA Mulaik 및 JH Steiger (Eds.)에서 유의성 검정이 없으면 어떻게합니까? (pp. 37-64). 마하와, 뉴저지 : 엘 바움.
Schönbrodt, FD (2015). p-checker : 일체형 p- 값 분석기. http://shinyapps.org/apps/p-checker/ 에서 검색했습니다 .
Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). 거짓 양성 심리학 : 데이터 수집 및 분석에 공개되지 않은 유연성으로 중요한 것을 제시 할 수 있습니다. 심리학, 22 (11), 1359-1366.
미국 Simonsohn (2013). 관찰 된 효과 크기에 따라 복제를 강화하는 어리 석음. 에서 입수해온 http://datacolada.org/4
미국 Simonsohn (2014). 후부 해킹. http://datacolada.org/13 에서 검색했습니다 .
Simonson, U., Nelson, LD, & Simmons, JP (2014). P- 곡선 : 파일 서랍의 키입니다. 실험 심리학 저널 : 일반, 143 (2), 534-547.
Simonson, U., Nelson, LD, & Simmons, JP (2014). P- 곡선 및 효과 크기 : 중요한 결과 만 사용하여 게시 바이어스를 수정합니다. 심리학의 관점, 9 (6), 666-681.
Wicherts, JM, Bakker, M., & Molenaar, D. (2011). 연구 데이터를 공유하려는 의지는 증거의 강도와 통계 결과보고의 품질과 관련이 있습니다. PloS 1, 6 (11), e26828.