효과 크기 란 무엇이며 왜 유용합니까?


18

기초적인 대학원 수준의 통계 배경을 가지고 있습니다 (Wackerly et al., Ross 's Probability 등).

저는 최근 교육 통계에서 실험 설계 및 통계보고를하는 일을 시작했으며 기본적으로 학교에 대한 책임 측정 기준을 평가하고 데이터를 분석하고 변경 사항을 제안해야하는 프로젝트에 참여했습니다. 수학 통계 배경을 가진 내 부서에서 하나.

제 입장에서 사람들은 프로그램의 효과를 측정하기 위해 효과 크기를 사용할 것을 강력히 제안했습니다. 내가 효과 크기에 대해 들어 본 유일한 시간은 심리학을 공부 한 내 친구에게서입니다. 내 인상은

Effect Size=Difference of MeansStandard Deviation.

기존 가설 검정보다이 측정법에서 유용한 점은 무엇이며 왜 그 점에주의해야합니까? 나에게 이것은 2 표본 검정에 대한 검정 통계량에 지나지 않습니다 . 나는 아마도 모든 사람이 같은 규모 (모든 사람이 실제로 "정규화"하는 이유)에 넣는 것과는 별개로 유용하지는 않지만 테스트 통계 (효과 크기가 나에게 보이는 것처럼 보인다)는 유행이 아니라고 생각했다. 및 -values 바람직하다.tp


나는 "초급 대학원 수준의 통계 배경"에 약간 혼란스러워한다. 처음 두 용어는 서로 모순되는 것 같습니다. 포함 된 내용을 명확하게 설명 할 수 있습니까? 그것은 대학원 수준 통계의 시작 또는 다른 것입니까?
Glen_b-복지 주 모니카

2
@Glen_b 네, 대학원 수준의 통계가 시작됩니다. 학부 수준 (예 : Wackerly et al., Ross 's Probability)에서 수학 통계와 확률을 알고 측정 이론에 대한 지식이 있다고 가정합니다.
Clarinetist

3
공감할 수 있어요, OP 수학 / 통계 배경에서 비롯된 경우, 사회학 또는 심리학 박사 프로그램에서 훈련 된 사람들과 통계를 논의하는 것은 종종 당황 스러웠습니다. 최상의 통계 관행, 예를 들어 구조 방정식 모델링이 모든 문제에 대한 해결책이 아니거나 선형성이 항상 좋은 가정은 아니라는 완고한 검토 자 / 편집자에게 확신을주기 위해 노력하십시오! 그러나 몇 년 후 나는 그 공동체와 아주 잘 연합하는 법을 배웠습니다!
CrockGill

답변:


20

그것은 효과 크기의 척도이지만 다른 것들도 많이 있습니다. 그것은 확실히 하지 검정 통계량. 효과 크기 측정은 종종 Cohen 's d (SD는 MLE를 통해 추정되는 경우에만 정확합니다 (예 : Bessel의 보정 없이 )); 보다 일반적으로 '표준화 된 평균 차이'라고합니다. 아마도 이것은 t d : dtdtd
즉, "/

d=x¯2x¯1SDt=x¯2x¯1SEt=x¯2x¯1SDN
표준화 된 평균 차이에 대한 수식에서 N "이 누락되었습니다. /N

보다 일반적으로 샘플 크기를 값에서 벗어나면 실제 정보가 제공됩니다. 진정한 효과를 가정하지 않습니다 정확히 무한 소수 자릿수에, 당신은 당신이 충분한으로 좋아할만한 의미있는 수준 달성 할 수 없음을 . P는 - 값은 우리가 귀무 가설을 거부 될 수있는 방법을 자신에 대한 정보를 제공하지만 효과는 당신이 얼마나 많은 데이터가 얼마나 큰 가미하여 의해 그렇게한다. 우리가 귀무 가설을 기각해야하는지 아는 것이 확실히 좋지만, 교육 개입의 효과가 학생에게 큰 이익을 가져다 주거나 사소하고 큰 N 으로 인해 중요한지 아는 것도 좋습니다.0NpN .


15

더 관련성이 높은 분야 (심리학 또는 교육 등)에 대한 배경 지식이있는 사람이 더 나은 답변을 얻을 수 있기를 기대하지만, 기회를 줄 것입니다.

" 효과 크기 "는 하나 이상의 의미를 가진 용어입니다. 지난 몇 년 동안 내가 결국 그 실현에 도달 할 때까지 약간의 혼란스러운 대화를 이끌어 냈습니다. 여기서 우리는 표준 편차 척도 버전을 명확하게 다루고 있습니다 ( "표준 편차는 몇 개입니까?").

공통적 인 주제 영역에서 이러한 "효과 크기"를 보는 이유 중 일부는 특정 값이 본질적으로 의미가 없지만 얻기 어려운 일부 기본 측정을 ​​시도하도록 구성된 변수를 가지고 있기 때문입니다. 에서.

예를 들어, 직무 만족도를 측정하려고한다고 가정하십시오 (아마도 관심 대상 처리를 포함하여 일부 독립 변수 세트와 관련이있는 모델 일 경우). 직접 얻을 수있는 방법은 없지만 (예를 들어) 리 커트 척도와 같은 것을 사용하여 설문의 다른 측면을 얻을 수있는 설문지를 만들 수 있습니다.

다른 연구원은 직무 만족도를 측정하는 방법이 다를 수 있으므로 "만족도"측정의 두 세트는 직접 비교할 수는 없지만 다양한 형식의 유효성을 가지고 있는지 확인해야합니다. 그들은 합리적으로 만족도를 측정하고있을 것입니다. 최소한의 효과 크기는 거의 비슷할 것입니다.


3
기술없이 '구문'이라는 아이디어를 소개하는 데 아주 훌륭합니다. 그러나 Clarinetist의 연구에서는이 아이디어를 좀 더 깊이 이해해야합니다. 나는 Cronbach & Meehl의 1955 년 Psychological Bulletin 기사 'construct validity'에 대한 원천을 강력히 추천한다 : psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris

7

위의 공식은 Cohen의 d 를 계산하는 방법 관련 샘플 (아마도 당신이 가지고있는 것입니까?)에 대한 를 입니다. 비 관련이 있다면 풀링 된 분산을 대신 사용할 수 있습니다. 효과 크기에 대해 알려주는 다양한 통계가 있지만 Cohen의 d는 0과 3 사이에서 변할 수있는 표준화 된 측정 값입니다. 다른 변수가 많으면 생각할 때 표준화 된 측정 값을 갖는 것이 좋습니다. 그들 모두 함께. 반면에, 많은 사람들은 측정되는 단위로 효과 크기를 이해하는 것을 선호합니다. p 값이 이미있을 때 왜 d를 계산합니까? 다음은 현재 작업중 인 데이터 세트의 예입니다. 나는 검증 된 심리적 설문지를 사용하여 측정 된 (리 커트 데이터 생성) 학교에서 행해지는 행동 중재를보고 있습니다. 거의 모든 변수는 통계적으로 유의미한 변화를 보이며, 큰 표본이있을 때 (n = ~ 250) 예상치 못한 결과 일 것입니다. 그러나 일부 변수의 경우 Cohen 's d0.12와 같이 아주 작은 단위입니다. 이는 확실히 변화가 있지만 임상 적으로 중요한 변화가 아닐 수 있으므로 데이터에서 진행되는 일에 대한 토론과 해석에 중요합니다. 이 개념은 실무자 (또는 귀하의 경우 학교)가 치료의 실제 임상 적 유용성 (또는 실험중인 것)을 고려해야하는 심리학과 건강 과학에 널리 사용됩니다. Cohen의 d 는 (p 값에 관계없이) 실제로 중재를 수행 할 가치가 있는지에 대한 질문에 답변하는 데 도움이됩니다. 의료 과학에서 그들은 또한 NNT 를 고려하고 문제의 상태의 심각성 측면에서 이것을 평가합니다. @krstoffr http://rpsychologist.com/d3/cohend/ 에서이 훌륭한 자료를 살펴보십시오.



2

실제로, p- 값은 이제 마침내 '패션을 벗어났습니다': http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . NHST (Null hypothesis significance test)는 표본 크기에 대한 설명을 거의 제공하지 않습니다. (*) 실험적인 개입은 약간의 영향을 미칩니다. . 따라서 '유의하지 않은'테스트는 단순히 샘플 크기가 충분하지 않다는 것을 의미합니다. '중요한'테스트는 무언가를 '찾을'충분한 데이터를 수집했음을 의미합니다.

'효과 크기'는 문제의 자연적인 척도를 측정하여이를 해결하려는 시도를 나타냅니다. 치료는 항상이 의학에서 일부 (그것이 플라시보 효과의 경우에도) 영향을하는 '임상 적으로 의미있는 효과'의 개념은 '치료'는 ( '이 발견됩니다 50 % 이전 가능성을 방지하려면 도입 임의로 큰 연구에서 통계적으로 유의 한 긍정적 인 효과 (그러나 미미한).

업무의 본질을 이해한다면, Clarinetist는 하루가 끝날 무렵에 학교의 교육 수준을 향상시키는 행동 / 개입을 알리는 것입니다 . 따라서 설정은 의사 결정 이론적 이며 베이지안 방법이 가장 적절하고 독창적입니다 [1] .

실제로 잦은 방법을 이해하는 가장 좋은 방법은 베이지안 방법에 대한 근사치 입니다. 추정 된 효과 크기는 베이지안 후 분포 의 중심성을 측정하는 것으로 이해 될 수있는 반면, p- 값은 그 후부의 꼬리를 측정하는 것을 의미하는 것으로 이해 될 수있다. 따라서, 함께 이 두 수량이 문제에 대한 결정 이론적 전망에 자연 입력을 구성하는 베이지안 후방의 일부 거친 요점이 포함되어 있습니다. (대안 적으로, 효과의 크기는 빈도에 대한 신뢰 구간은 재수로서 마찬가지로 이해 될 수있는 신뢰할 간격 ).

심리학과 교육 분야에서 베이지안 방법은 실제로 매우 인기가 있습니다. 이에 대한 한 가지 이유는 잠재 변수로서 베이지안 모델에 '구문'을 쉽게 설치할 수 있기 때문입니다. 심리학자 John K. Kruschke의 '강아지 책'을 확인하고 싶을 것 입니다. 교육 (학생들이 교실에, 학교에, 지역에 중첩되어있는 곳)에는 계층 적 모델링이 불가피합니다. 그리고 베이지안 모델은 계층 적 모델링에도 좋습니다. 이 계정에서 Gelman & Hill [2]를 확인하십시오.

[1] : Robert, Christian P. 베이지안 선택 : 결정 이론적 기초에서 전산 적 구현에 이르기까지. 제 2 판 통계에 스프링거 텍스트. 뉴욕 : 2007 년 봄.

[2] : Gelman, Andrew 및 Jennifer Hill. 회귀 및 다단계 / 계층 모델을 사용한 데이터 분석. 사회 연구를위한 분석 방법. 케임브리지; 뉴욕 : Cambridge University Press, 2007.


바이에른의 브릭 관점에서 불필요하게 당신을 때리는 '일관성'에 대한 자세한 내용 은 [3]을 참조하십시오.

[3] : Robins, James 및 Larry Wasserman. “조건, 가능성 및 일관성 : 일부 기본 개념의 검토.”Journal of the American Statistical Association 95, no. 452 (2000 년 12 월 1 일) : 1340–46. doi : 10.1080 / 01621459.2000.10474344.

(*) [4]에서 Meehl은 NHST를 훨씬 더 우아하게 닦지 만 나보다 덜 연마 적으로 닦습니다.

귀무 가설이 준 항상 거짓이기 때문에 "유의 한 차이"의 패턴으로 연구를 요약 한 표는 통계적 검정력 함수의 복잡하고 인과 적으로 해석 할 수없는 결과에 지나지 않습니다.

[4] : Meehl, Paul E.“이론적 위험 및 표 별표 : 칼, 로널드 경 및 연약한 심리학의 느린 진행.”Journal of Consulting and Clinical Psychiatry 46 (1978) : 806-34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


그리고 Tukey의 관련 인용문은 다음과 같습니다. /stats//a/728/41404


1
" 임의의 실험적 개입은 어떤 영향을 미치게 될 것입니다." 일부 연구 분야에서는 아마도 훌륭한 경험 법칙 일지 모르지만 너무 쓸어 버릴 위험이 있다고 생각합니다. 나는 또한 "[NHST는] 샘플 크기의 설명보다 조금 더 생산"하는 것이 좋을 것 논쟁의 여지가있다 : P 값은 사이의 상호 작용에서 나온다 샘플의 크기 효과의 크기입니다.
Silverfish

@ Silverfish, 답장을 보내 주셔서 감사합니다. p- 값에 대한 나의 관점이 '위험한' 를 제공하도록 권유합니다 . (BTW, 내가 넣어했다 일부를 같은 당신 같은 불만의 기대에 이탤릭체로, 그리고 "엄격한 의미에서"라는 문구를 사용했다. 내 주장은 여전히 유효.) 또한, p- 값은 참의의 "상호 작용에서 나온다"하지만, 다른 두 가지 요소, 그 중 하나 (샘플 크기)는 대부분 자유 설계 매개 변수로 임의로 선택됩니다. 그 임의의 선택은 p- 값이 반영하는 것입니다. 두 개의 숫자가 분명히 필요합니다. 신뢰 구간의 끝 점이 아닌 이유는 무엇입니까?
David C. Norris

2
예를 들어, 귀무 가설이 참이라고 합리적으로 기대할 수 있거나 적어도 우리가 실험을하거나 데이터를 보지 않아도 허위가 아니라고 확신 할 수없는 경우가 있습니다. 모든 null이 잘못된 것은 아닙니다 . 텔레파시 및 인식 실험과 같은 초 심리학 연구를 고려하십시오. 그러나 유전체학과 같이보다 "과학적으로 유효한"것으로 간주되는 분야에서는 많은 null이 사실입니다.
Silverfish

5
-1, 여기에는 많은 문제가 있습니다. IMO. 1 개의 사소한 심리학 저널이 p- 값을 금지했다는 사실이 "p- 값이 마침내 '패션을 벗어났습니다'"는 의미는 아닙니다. 금지령은 널리 비난을 받았습니다 ( ASA공손한 진술을 포함하여 그 후 몇 달 동안 다른 저널은이를 받아들이지 않았습니다).이 저널은 베이지안 방법으로 전환 할 필요가 없습니다. – 사례별로 만 고려할 것입니다
gung-Reinstate Monica

3
그러나 실제 실험에서 단위를 무작위 화하는 과정은 내생 경로를 깨고 X에서 Y 로의 직접적인 인과 경로를 테스트합니다. 이것을 붙들 지 말고“효과가 없다”는 귀무 가설은 항상 거짓이라고 주장하는 것은 일관성이 없다.
복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.