유의성 검정에 대한 가설로서의 효과 크기


37

오늘, 교차 검증 저널 클럽에서 (왜 거기에 없었습니까?) @mbq는 다음과 같이 물었습니다.

우리 (현대 데이터 과학자)가 의미가 무엇인지 알고 있다고 생각하십니까? 그리고 그것이 결과에 대한 우리의 확신과 어떤 관련이 있습니까?

@Michelle은 (나를 포함하여) 일반적으로 다음과 같이 대답했습니다.

나는 커리어를 계속할수록 중요성 (p- 값을 기준으로)이라는 개념이 점점 덜 도움이된다는 것을 알게되었습니다. 예를 들어, 매우 큰 데이터 세트를 사용할 수 있으므로 모든 것이 통계적으로 중요합니다 ( )<.01

이것은 아마도 어리석은 질문이지만 가설이 시험되는 문제가 아닌가? 귀무 가설 "A는 B와 같습니다"를 테스트하면 답이 "아니오"라는 것을 알 수 있습니다. 더 큰 데이터 세트는 필연적으로이 결론에 더 가깝게 만듭니다. 나는 한때 "양고기의 오른쪽에있는 머리카락의 수는 왼쪽에있는 머리카락의 수와 같다"는 가설을 제시 한 것은 데밍 (Deming)이었다. 물론 그렇지 않습니다.

더 나은 가설은 "A는 B와 크게 다르지 않다"입니다. 또는 어린 양의 예에서, "양 어린 양의 머리카락 수는 X % 이상 차이가 없습니다".

이게 말이 돼?


1) 평균 동등성 검정 (원하는 것으로 가정)은 경우에 따라 평균 차이의 유의성 검정으로 단순화 될 수 있습니다. 이 차이 추정치에 대한 표준 오차를 사용하면 "B와 다를 바없이 ..."정렬에 대한 모든 종류의 테스트를 수행 할 수 있습니다. 2) 표본 크기에 대해서는 그렇습니다. 큰 ss의 경우 중요성의 중요성이 감소하지만 추가 값을 생성 할 수없는 작은 표본에는 여전히 중요합니다.
Ondrej

11
"물론 그렇지 않습니다." 짐작할 수 있듯이, 어린 양은 양쪽에 머리카락이 있습니다. 그러한 머리카락이 짝수이고 양쪽에 동일한 확률로 무작위로 분포되고 양쪽이 명확하게 묘사되어 있으면 두 숫자가 정확히 같을 확률 은 0.178 %입니다. 수백의 큰 무리, 당신은해야 기대하는 각 십 년간 (머리카락의 짝수 가정은 시간의 50 %에 대해 발생)하면 이러한 완벽하게 균형 잡힌 양이 적어도 태어 볼 수 있습니다. 또는 : 거의 모든 오래된 양 농부가 그런 어린 양을 가졌습니다! 105
whuber

1
@whuber 분석의 목적에 의해 결정됩니다. 더 나은 유추는 시험 후 약물에 대한 추가 투자를 정당화 할 수있는 최소 효과 크기가 될 것입니다. 약물 개발 비용이 비싸고 고려해야 할 부작용이있을 수 있기 때문에 통계적으로 유의미한 영향의 존재만으로는 충분하지 않습니다. 통계적인 질문이 아니라 실용적인 질문입니다.
Dikran Marsupial

2
@ whuber 나는 관심있는 최소 효과 크기를 결정하기위한 실용적인 정보가없는 대부분의 응용 프로그램에서 표준 가설 테스트, 예를 들어 정규성 테스트와 같은 것으로 생각합니다. 베이지안으로서 저는 가설 검정 문제보다는 최적화 문제라는 견해에 동의 할 것입니다. 가설 검정 문제의 일부는 통계 요리 책 접근법의 결과로, 시험의 목적 또는 결과의 진정한 의미 (모두 IMHO)를 적절히 고려하지 않고 전통적으로 검정을 수행합니다.
Dikran Marsupial

1
@DikranMarsupial은 학생들이 좋은 학업 디자인의 중요성보다는 아래 쿵으로 식별되는 방식으로 시험을 배우는 열쇠가 아닌가? 연구 설계에 더 중점을두면 문제의 일부를 해결하는 데 도움이됩니까?
Michelle

답변:


25

유의성 테스트가 진행되는 한 (또는 중요도 테스트 와 본질적으로 동일한 다른 ), 나는 대부분의 상황에서 최선의 접근법이 95 % 신뢰 구간으로 표준화 된 효과 크기를 추정 할 가능성이 있다고 오랫동안 생각 해왔다 효과 크기. 'nil'null의 p- 값이 <.05 인 경우 0은 95 % CI의 외부에 있으며 그 반대도 마찬가지입니다. 내 의견으로는 이것의 장점은 심리적입니다; 즉, 존재하는 중요한 정보를 만들지 만 p- 값만보고 된 사람은 볼 수 없습니다. 예를 들어, 효과가 심각하게 '유의하지만'엄청나게 작다는 것을 쉽게 알 수 있습니다. 또는 '유의하지 않음'이지만 오차 막대가 크지 만 예상 효과가 예상 한 것보다 크거나 작기 때문입니다. 이들은 원시 값과 CI와 쌍을 이룰 수 있습니다.

이제 많은 분야에서 원가는 본질적으로 의미가 있으며, 이미 평균과 기울기와 같은 값이 있다고 가정 할 때 효과 크기 측정을 계산할 가치가 있는지에 대한 의문이 제기된다는 것을 알고 있습니다. 예를 들어 성장이 둔화 될 수 있습니다. 우리는 20 년 오래 된, 흰색 남성 (즉 15 + 5cm) 6 +/- 2인치 짧게하는 것이, 무엇을 의미하는지 아는 것보다 그들이 것, 그렇지 않으면 왜 언급 ? 나는 둘 다보고하는 데 여전히 가치가 있다고 생각하는 경향이 있으며, 추가 작업이 거의 없도록 함수를 계산하여 함수를 작성할 수는 있지만 의견은 다를 수 있음을 알고 있습니다. 여하튼, 나는 포인트 추정치가 신뢰 구간으로 p- 값을 내 반응의 첫 부분으로 대체한다고 주장합니다. =1.6±.5

반면에, 더 큰 문제는 '의미 테스트가 실제로 원하는 것을 하는가?'라고 생각합니다. 실제 문제는 데이터를 분석하는 대부분의 사람들 (예를 들어 통계학자가 아닌 실무자)에게 유의성 테스트가 전체 데이터 분석이 될 수 있다고 생각합니다. 가장 중요한 것은 데이터에서 무슨 일이 일어나고 있는지에 대해 생각할 수있는 원칙적인 방법을 갖는 것 같으며, 귀무 가설 유의성 테스트는 기껏해야 아주 작은 부분입니다. 상상의 예를 들어 보겠습니다 (이것이 풍자 만화임을 인정하지만 불행히도 다소 그럴듯한 것 같습니다.)

Bob은 연구를 수행하여 무언가에 대한 데이터를 수집합니다. 그는 데이터가 정상적으로 분산되어 어떤 값을 중심으로 밀집 될 것으로 예상하고, 자신의 데이터가 사전 지정된 값과 '상당히 다른지'확인하기 위해 1- 표본 t- 검정을 수행하려고합니다. 표본을 수집 한 후 데이터가 정상적으로 분포되어 있는지 확인하고 그렇지 않은 것을 발견합니다. 대신, 중앙에 뚜렷한 덩어리가 없지만 주어진 간격 동안 상대적으로 높고 왼쪽 꼬리가 길다. Bob은 자신의 테스트가 유효하도록하기 위해해야 ​​할 일에 대해 걱정합니다. 그는 어떤 일 (예 : 변환, 비모수 적 테스트 등)을 수행 한 다음 테스트 통계 및 p- 값을보고합니다.

나는 이것이 불쾌하게 사라지지 않기를 바랍니다. 나는 누군가를 조롱한다는 의미는 아니지만 이런 일이 가끔 발생한다고 생각합니다. 이 시나리오가 발생하면 데이터 분석이 열악하다는 데 모두 동의 할 수 있습니다. 그러나 문제는 검정 통계량 또는 p- 값이 잘못된 것이 아닙니다. 그 점에서 데이터가 올바르게 처리 되었다. 문제는 밥이 클리블랜드가 "회전 데이터 분석 (rote data analysis)"에 관여하고 있다고 주장한다. 그는 유일한 요점은 올바른 p- 값을 얻는 것이라고 믿는 것으로 보이며 그 목표를 추구하는 것 이외의 데이터에 대해서는 거의 생각하지 않습니다. 그는 위의 제안으로 넘어 가서 95 % 신뢰 구간으로 표준화 된 효과 크기를보고했으며 더 큰 문제로 본 내용을 변경하지 않았을 것입니다. "다른 방법으로). 이 특정한 경우에, 데이터가 그가 예상 한대로 보이지 않았다는 것 (즉, 정상적이지 않은)은 실제 정보이며, 흥미 롭습니다.매우 중요하지만 그 정보는 본질적으로 버려집니다. Bob은 중요성 테스트에 중점을두기 때문에이를 인식하지 못합니다. 내 생각에는 이것이 의미 테스트 의 실제 문제입니다.

언급 된 몇 가지 다른 관점을 다루겠습니다. 저는 다른 사람을 비판하지 않는다는 것을 분명히하고 싶습니다.

  1. 많은 사람들이 p- 값을 실제로 이해하지 못한다고 언급하는 경우가 많습니다 (예를 들어, 널이 참일 가능성이 있다고 생각하는 경우 등). 저리가 나는 사람들이 베이지안 데이터 분석에 흥미롭고 기계적인 방식으로 접근 할 수 있다고 생각합니다. 그러나 p- 값을 얻는 것이 목표라고 생각한 사람이 없다면 p- 값의 의미를 오해하는 것이 덜 해롭다 고 생각합니다.
  2. '빅 데이터'의 존재는 일반적으로이 문제와 관련이 없습니다. 빅 데이터는 '의미'에 대한 데이터 분석을 구성하는 것이 도움이되지 않는다는 것을 명백하게합니다.
  3. 나는 문제가 가설을 테스트하고 있다고 생각하지 않습니다. 사람들이 예상 값이 포인트 값과 같지 않고 간격을 벗어나는 것만보고 싶다면 동일한 문제가 많이 발생할 수 있습니다. (다시 말해, 나는 당신이 '밥'이 아니라는 것을 분명히하고 싶습니다 .)
  4. 기록을 위해, 나는 첫 번째 단락에서 나 자신의 제안 이 지적하려고 시도했을 때 문제를 다루지 않는다고 언급하고 싶다 .

저에게는 이것이 핵심 이슈입니다. 우리가 정말로 원하는 것은 일어난 일을 생각하는 원칙적인 방법 입니다. 주어진 상황에서 의미하는 바는 잘리고 건조되지 않습니다. 메소드 클래스의 학생들에게이를 전달하는 방법은 명확하지도 않고 쉽지도 않습니다. 유의성 테스트에는 많은 관성과 전통이 있습니다. 통계 수업에서는 무엇을 가르쳐야하며 어떻게해야하는지 분명합니다. 학생들과 실무자들은 자료를 이해하기위한 개념적 스키마와 분석을 수행하기위한 체크리스트 / 흐름표 (일부 보았습니다!)를 개발할 수 있습니다. 유의성 테스트는 멍청하거나 게 으르거나 나쁜 사람없이 자연스럽게 데이터 분석으로 발전 할 수 있습니다. 그게 문제입니다.


나는 신뢰 구간을 좋아한다 :) 한가지 질문 : 효과 크기의 사후 계산이 괜찮다는 것을 의미 하는가?
Michelle

x¯1=10엑스¯2=14에스=6=.67

예, 우리는 여기에 동의한다고 생각합니다.
Michelle

+1 Bob의 이야기는 이것을 상기시킵니다 : pss.sagepub.com/content/early/2011/10/17/0956797611417632
Carlos

+1 나는 믿을만한 간격을 선호한다. 포인트 1에 관해서는 확률의 정의가 반 직관적이지 않기 때문에 베이지안 대안이 데이터를 분석 할 가능성이 적다고 주장합니다. 이는 실제로 통계적으로 물어보고 싶은 질문을 공식화하는 것을 훨씬 쉽게 만듭니다. . 실제 문제는 시험을 수행하기 위해 잡종이 필요하다는 점에 있으며, 이러한 방법을 널리 채택하기에는 너무 어렵다. 사용자가 질문을 작성하는 데 집중하고 나머지는 컴퓨터에 맡길 수있는 수준까지 소프트웨어가 개발되기를 바랍니다.
Dikran Marsupial

18

통계 에서 어떤 형태의 가설 검정을 고집해야 하는가?

멋진 책인 Principled Argument로서의 통계에서 Robert Abelson은 통계 분석이 해당 주제에 대한 원칙적 논쟁의 일부라고 주장합니다. 그는 가설을 기각하거나 기각하지 않는 가설로 평가하기보다는 MAGIC 기준에 따라 평가해야한다고 말합니다.

크기-얼마나 큽니까? 조음-예외로 가득합니까? 명백합니까? 일반성-일반적으로 어떻게 적용됩니까? 흥미-결과에 관심이 있습니까? 신뢰성-믿을 수 있습니까?

블로그 에있는 책대한 내 리뷰


4
이 문제는 일부 교수들이 제기 한 것입니다. 내 박사 학위는 심리학 부서에있는 심리학에 있습니다. 부서의 다른 부서의 교수들이 "p- 값만보고하면된다"고 말하는 것을 들었습니다. 저의 작업은 주로 사회, 행동, 교육 및 의료 분야의 대학원생 및 연구원과 상담하고 있습니다. 박사위원회에서 제공하는 잘못된 정보의 양은 놀랍습니다.
Peter Flom-Monica Monica 복원

1
"왜 ..."에 대해 +1, 그것은 내가 대답하려고하는 것의 큰 부분입니다.
gung-복직 모니카

내가 대답하려고했던 또 다른 부분은 이것이 자연스럽게 일어난다는 것입니다. Btw, 공평한 두 개의 공의를받지 않는 ;-), 당신은 이것을 결합 할 수 있습니다.
gung-복직 모니카

13

H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2홍보(|엑스1엑스2|>ϵ)


(+1) 그리고 1000 평판에 오신 것을 환영합니다. 건배.
추기경

6

전통적인 가설 검정은 효과의 존재에 대한 통계적으로 유의미한 증거가 있는지 여부를 알려주는 반면, 우리가 자주 알고 싶은 것은 실질적으로 중요한 효과의 증거의 존재입니다.

최소한의 효과 크기로 베이지안 "가설 테스트"를 형성하는 것이 가능합니다 (IIRC는 David MacKay의 "정보 이론, 추론 및 학습 알고리즘"에 대한 예가 있습니다). .

정규성 테스트는 또 다른 좋은 예입니다. 우리는 일반적으로 데이터가 실제로 정규적으로 분포되어 있지 않다는 것을 알고 있습니다. 우리는 이것이 합리적인 근사치가 아니라는 증거가 있는지를 테스트하고 있습니다. 또는 동전의 편향을 테스트하면 동전이 아시 메트릭이므로 완전히 편향되지 않을 것입니다.


6

이 중 많은 부분이 실제로 묻는 질문, 연구 설계 방법 및 평등의 의미에 이르기까지 다양합니다.

나는 사람들이 특정 단계를 의미하는 것을 해석 한 것에 대해 이야기 한 영국 의학 저널 (British Medical Journal)에 흥미로운 작은 삽입물을 썼습니다. "항상"이라는 것은 시간의 91 % 정도 낮은 일이 발생한다는 것을 의미합니다 (BMJ VOLUME 333 26 AUGUST 2006 페이지 445). 따라서 동일하고 동등한 (또는 X의 일부 값의 경우 X % 이내) 동일한 것을 의미한다고 생각할 수 있습니다. 그리고 R을 사용하여 컴퓨터에 간단한 평등을 요구하십시오.

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

$$

H에이:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμμ0μμ0μ0 μ

이 중 많은 부분이 올바른 질문을하고 해당 질문에 대한 올바른 연구를 설계합니다. 실질적으로 의미없는 차이가 통계적으로 유의하다는 것을 보여줄 수있는 충분한 데이터가 있다면, 많은 양의 데이터를 얻는 데 리소스를 낭비한 것입니다. 의미있는 차이가 무엇인지 결정하고 그 차이를 감지 할 수있는 충분한 힘을 줄 수 있도록 연구를 설계하는 것이 좋을 것입니다.

머리카락을 정말로 나누고 싶다면, 양의 어떤 부분이 오른쪽에 있고 어떤 부분이 왼쪽에 있는지 어떻게 정의합니까? 정의에 따라 각면에 같은 수의 머리카락이있는 선으로 정의하면 위의 질문에 대한 대답은 "물론입니다"가됩니다.


R에서 얻은 대답은 단순히 부동 소수점 산술 문제의 결과이며 관련이없는 차이점을 무시하려는 의식적인 결정이 아니라고 생각합니다. 고전적인 예 (.1 + .2) == .3“순수한 수학자”는 모든 수준의 정밀도에서 동일하다고 말하지만 R은 FALSE를 반환합니다.
Gala

@ GaëlLaurans, 내 요점은 (사람이나 컴퓨터에 의한 고의적 반올림) 충분히 작은 X에 대해 정확히 동일하고 X % 이내의 개념이 실제로 동일하다는 것입니다.
Greg Snow

5

조직의 관점에서 정책 옵션이 있거나 정부가 새로운 프로세스 / 제품을 출시하려는 경우 간단한 비용-편익 분석을 사용하면 도움이 될 수 있습니다. 나는 과거에 새로운 이니셔티브의 알려진 비용을 감안할 때 (정치적 이유를 무시하고) 그 이니셔티브에 긍정적으로 영향을 받아야하는 많은 사람들의 휴식 점은 무엇이라고 주장 했는가? 예를 들어, 새로운 이니셔티브가 더 많은 실업자를 고용하고 이니셔티브 비용을 늘리는 것이라면 $100,000적어도 실업률이 감소 $100,000합니까? 그렇지 않다면, 이니셔티브의 효과는 실질적으로 중요하지 않습니다.

건강 결과를 위해서는 통계적 삶가치가 중요합니다. 이는 건강 혜택이 평생 동안 발생하기 때문입니다 (따라서 혜택은 할인율에 따라 가치가 하향 조정 됩니다 ). 따라서 통계적 중요성 대신 통계적 수명의 가치를 추정하는 방법과 적용 할 할인율에 대한 논증을 얻습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.