“통계적으로 유의미한”이유가 충분하지 않은 이유는 무엇입니까?

46

데이터 분석을 마치고 가설과 일치하는 "통계적으로 유의미한 결과"를 얻었습니다. 그러나 통계학의 한 학생은 이것이 조기 결론이라고 말했습니다. 왜? 보고서에 포함해야 할 다른 것이 있습니까?

— 짐 본
소스

4

그것은 "가설과 일치하는 통계적으로 유의미한 결과를 얻었다"는 의미에 많은 영향을받습니다. 가설이 바람이 나무에 의해 생성되고 실험에서 나무가 가지를 움직일 때 관측치의 100 %에서 바람이 있었다고 가정하면, 통계적으로 유의미한 것으로 판단되며 결론이 입증됩니다. 분명히 잘못되었습니다. 따라서이 경우 중 하나 일 수 있습니다.

— sashkello

1

잘 설계된 데이터 수집, 동일한 모델 및 동일한 가설 검정을 사용하여 신뢰성있는 "중요한 발견"을 안전하게 선언하려면 후속 연구가 필요합니다. 또한 현재 데이터 세트가 중요한 발견으로 주장하고있는 "일반 인구"를 나타내는 지 확인해야합니다 (이것은 "큰 데이터"를 추론하는 데있어 중요한 문제임)

— 확률 론적

1

분명히 '상관이 원인이 아님'만큼 간단합니다.

— Fractional

1

여기 제가 가장 좋아하는 것이 있습니다 : 밥을 많이 먹는 사람들은 더 많은 아이들을 낳습니다. 전 세계 인구를 확인하면 통계적으로 유의미한 결과를 얻을 수 있습니다 ...

— Karoly Horvath

4

훌륭한 답변이지만 아무도 그에게 명백한 해결책을 제안한 것에 놀랐습니다. 다른 사람이 당신의 일이나 다른 관심사에 대해 틀렸다고 말할 때마다 물어보십시오. X, y 및 Z가 시원하기 때문에 누군가에게 잘못되었다고 말하는 것은 학습의 기회입니다. 그러나 누군가에게 자신이 틀렸다는 것을 말하고 끄는 것은 성가신 행동입니다.

— Sylverdrag

53

가설 검정 대 모수 추정

일반적으로 가설은 이진 방식으로 구성됩니다. 방향성 가설을 한쪽에 두겠습니다. 문제를 많이 바꾸지 않기 때문입니다. 적어도 심리학에서는 다음과 같은 가설에 대해 이야기하는 것이 일반적입니다. 그룹 평균 간의 차이가 0이거나 그렇지 않습니다. 상관 관계는 0이거나 0이 아닙니다. 회귀 계수는 0이거나 0이 아니며; r- 제곱은 0이거나 0이 아니다. 이 모든 경우에 효과가 없다는 귀무 가설과 효과의 대체 가설이 있습니다.

이 이진 사고는 일반적으로 우리가 가장 관심이있는 것이 아닙니다. 일단 연구 질문에 대해 생각하면 거의 항상 매개 변수 추정에 관심이 있다는 것을 알게 될 것입니다. 그룹 평균 간의 실제 차이, 상관의 크기 또는 회귀 계수의 크기 또는 설명 된 분산의 양에 관심이 있습니다.

물론 표본 데이터를 얻을 때 모수의 표본 추정치는 모집단 모수와 동일하지 않습니다. 따라서 매개 변수의 값이 무엇인지에 대한 불확실성을 정량화하는 방법이 필요합니다. 베이지안 순수 주의자들은 자신들이 원하는 추론을 엄격하게 허용하지 않는다고 주장 할 수도 있지만, 빈번한 관점에서, 신뢰 구간은 행동의 수단을 제공합니다. 베이지안 관점에서, 후방 밀도의 신뢰할 수있는 간격은 모집단 모수 값에 대한 불확실성을 정량화하는보다 직접적인 수단을 제공합니다.

매개 변수 / 효과 크기

이진 가설 검정 접근 방식을 벗어나면 지속적으로 생각해야합니다. 예를 들어, 그룹의 크기 차이가 이론적으로 흥미로운 것은 무엇입니까? 그룹 평균의 차이를 주관적 언어 또는 실제적 의미에 어떻게 매핑 하시겠습니까? 상황 별 규범과 함께 표준화 된 효과 측정은 서로 다른 매개 변수 값의 의미를 정량화하기위한 언어를 구축하는 한 가지 방법입니다. 이러한 측정은 종종 "효과 크기" (예 : Cohen 's d, r, 등)로 표시됩니다. 그러나 표준화되지 않은 측정을 사용하는 효과의 중요성 (예 : 소득 수준, 기대 수명 등과 같은 의미있는 표준화되지 않은 변수에 대한 그룹 평균의 차이)에 대해 이야기하는 것이 완벽하고 합리적이며 종종 바람직합니다. $R^2$

p- 값, 귀무 가설 유의성 테스트 등에 중점을 두는 심리학 (및 기타 분야)에 대한 거대한 문헌이 있습니다 (이 Google Scholar 검색 참조 ). 이 문헌은 종종 신뢰 구간이있는보고 효과 크기를 해결책으로 권장합니다 (예 : APA Task force by Wilkinson, 1999).

이진 가설 검정에서 벗어나기위한 단계

이 생각을 채택하려고 생각하는 경우 점진적으로 더 정교한 접근 방식을 취할 수 있다고 생각합니다.

접근법 1a. 원시 및 표준화 된 용어로 표본 효과의 점 추정치 (예 : 그룹 평균 차이)를보고합니다. 결과를보고 할 때 이러한 규모가 이론과 실제에 어떤 의미가 있는지 논의하십시오.
접근법 1b. 표본 크기를 기준으로 모수 추정치 주변의 불확실성을 적어도 기본 수준에서 1a에 더합니다.
접근법 2. 또한 효과 크기에 대한 신뢰 구간을보고하고이 불확실성을 관심 매개 변수의 그럴듯한 값에 대한 귀하의 생각에 포함시킵니다.
접근법 3. 베이지안 신뢰 구간을보고하고, 이전 선택, 모델에 의해 암시 된 데이터 생성 프로세스 등과 같은 해당 신뢰 구간에 대한 다양한 가정의 영향을 조사하십시오.

많은 참고 문헌 중에서 Andrew Gelman 이 자신의 블로그 및 연구에서 이러한 문제에 대해 많이 이야기하는 것을 볼 수 있습니다 .

참고 문헌

Nickerson, RS (2000). 귀무 가설 유의성 검정 : 오래되고 계속되는 논쟁에 대한 검토. 심리학 적 방법, 5 (2), 241.
윌킨슨, 엘. (1999). 심리학 저널의 통계 방법 : 지침 및 설명. 미국 심리학자, 54 (8), 594. PDF

— 제로미 앵림
소스

12

Jeromy의 의견에 더하여, 통계적 중요성에 대한 숭배에 대한 Ziliac과 McCloskey의 에세이를 읽을 것을 권장합니다. 가장 눈에 띄는 통계는 아니지만 효과 크기, 실용적 중요성 및 손실 기능이 왜 중요한지에 대한 신중하고 재미있는 토론을 제공합니다. deirdremccloskey.com/docs/jsm.pdf

— Jim

때로는 p가 .05보다 낮아야한다고 생각합니다. 감사합니다 : gung, Jeromy 및 Jim

— Jim Von

1

Ziliak [NB] 및 McCloskey : 바쁘면 phil.vt.edu/dmayo/personal_website/…를 먼저 읽으 십시오 . 바쁘지 않다면 먼저 읽어보십시오.

— Nick Cox

천만에요, @JimVon. FWIW, 때로는 p가 .05보다 높아야 한다고 생각합니다 . 그것은 단지 다릅니다.

— gung-Monica Monica 복원

1

Gelman 박사가 여기에서 이름을 얻는 것을 보게되어 기쁘다. 분명히 그는 p- 값을 보고하는 것을 좋아하지 않으며 , 심각한 추론을 위해 p- 값을 사용하는 것은 물론입니다. 또한 모든 변수를 당연히 표준화하는 좋은 사례를 제시합니다.

— shadowtalker

26

기존 답변에 추가하기 만하면됩니다. 통계적 유의성은 표본 크기의 함수 라는 것을 알고 있어야합니다 .

점점 더 많은 데이터를 얻으면 어디서나 통계적으로 유의미한 차이를 찾을 수 있습니다. 데이터의 양이 크면 아주 작은 효과조차도 통계적으로 유의할 수 있습니다. 그렇다고 실제 효과가 의미있는 것은 아닙니다.

차이를 테스트 할 때는 통계적으로 유의미한 결과를 생성하는 데 필요한 효과 크기가 샘플 크기가 증가함에 따라 감소 하기 때문에 만으로는 충분하지 않습니다 . 실제로, 실제 질문은 일반적으로 주어진 최소 크기 (관련성)의 영향이 있는지 여부입니다. 표본이 매우 커지면 은 실제 질문 에 답하는 데 의미가 없어집니다 . $p$ $p$

— 마크 클라 센
소스

이것이 나의 슬라이드 13에서 다루는 요점입니다. :)

— Stéphane Laurent

6

이것을 위해 +1. 중요성을 깨닫지 못하는 사람들은 샘플 크기의 함수로 인해 견딜 수 없습니다.

— Fomite

12

귀하의 연구를 실행하기 전에 귀하의 가설이 사실이라고 의심 할만한 합리적인 근거가 있다면; 그리고 당신은 좋은 연구를하였습니다 (예를 들어, 당신은 혼란을 유발하지 않았습니다); 결과는 가설과 일치하고 통계적으로 유의했습니다. 그때까지는 당신이 괜찮다고 생각합니다.

그러나 결과에 중요한 의미가 있다고 생각해서는 안됩니다. 먼저, 효과 크기 도 살펴 봐야 합니다 (여기서 내 대답 : 유의성 검정에 대한 가설로서의 효과 크기 참조 ). 또한 데이터를 조금 살펴보고 후속 조치가 필요한 잠재적으로 흥미로운 놀라움을 찾을 수 있는지 확인하고 싶을 수도 있습니다.

— gung-복직 모니카
소스

가설이 합리적이어야합니까? 내 가설이 무의미한 데이터 분석으로 이어질지 여부를 판단하는 방법은 무엇입니까? 사후에“잠재적으로 흥미로운 놀라움”이 드러나야합니까?

— Jim Von

내가 의미하는 바는 아마도 1 위에서 연구를 수행해야 할 정당한 이유가 있었을 것입니다. 현재의 이론적 지식 및 / 또는 최근 연구에 따르면 귀하의 가설이 사실 일 수 있습니다. 일관성이 없으면 가설은 "무의미한 데이터 분석으로 이어질 것"이 아닙니다. 잠재적으로 흥미로운 놀라움 / 데이터 특징은 사후에 발견 될 수 있습니다. 그것들이 놀랍다 는 사실은 당신이 연구를 계획 할 때 그들이 일어날 것이라는 것을 알지 못했음을 암시합니다. "포스트-호크 (post-hoc)"와 관련된 문제는 놀라움을 믿어야하는지 여부입니다.

— gung-Monica Monica 복원

7

이것과 이것 그리고 이것 그리고 이것을보고하기 전에 실험 데이터로부터 무엇을 배우고 싶은지 공식화하십시오. 일반적인 가설 검정 (학교에서 배운 시험 ...)의 주요 문제는 이진성이 아닙니다. 주요 문제는 관심 가설이 아닌 가설 검정이라는 것입니다. 슬라이드 13을 참조하십시오 (애니메이션을 감상하려면 pdf를 다운로드하십시오). 효과 크기에 대해서는이 개념에 대한 일반적인 정의가 없습니다 . 솔직히 나는 전문가가 아닌 통계 전문가에게 이것을 사용하지 않는 것이 좋습니다. 이것들은 "효과"에 대한 기술적이지 자연스럽지 않습니다. 관심있는 가설은 일반인이 이해할 수있는 용어로 공식화되어야합니다.

— 스테판 로랑
소스

1

하나의 작은 추가-귀무 가설은 실제로 표준 HT가 적용하기 위해 현재 데이터 분석의 맥락을 벗어난 것을 의미해야합니다. 당신의 이론 / 발견에 찬성하여 거부 할 무언가를 갖도록 "발명"되어서는 안됩니다.

— probabilityislogic

2

통계 전문가와는 거리가 멀지 만 지금까지 한 통계 과정에서 강조한 것은 "실용적 중요성"문제입니다. 나는 이것이 "효과 크기"를 언급 할 때 Jeromy와 gung이 말하고있는 것을 암시한다고 믿는다.

통계적으로 유의 한 체중 감량 결과를 보인 12 주식이 클래스의 예가 있었지만 95 % 신뢰 구간은 0.2 ~ 1.2kg의 평균 체중 감소를 나타 냈습니다 (데이터는 아마 구성되었지만 요점을 보여줍니다) . "통계적으로 유의미한"은 0과 다르지만 12 주에 걸친 200 그램의 체중 감소가 과체중 인 사람이 "실제적으로 유의 한"결과인가?

— 케 살리
소스

이것은 나의 슬라이드 13을 따르는 요점이다 :)

— Stéphane Laurent

2

이것은 또한 "잘못된"귀무 가설을 테스트하는 예입니다. 당신이 관심있는 결론은 아닙니다. 더 나은 가설 테스트는 체중 감소가 5kg보다 5kg보다 작다는 것입니다.

— probabilityislogic

1

당신의 연구와 그 사람의 비판에 대한 자세한 내용을 알지 못하면 정확하게 대답 할 수 없습니다. 그러나 여기에는 한 가지 가능성이 있습니다. 여러 테스트를 실행하고 다른 테스트에서 나온 테스트에 집중하기로 p<0.05선택한 경우 "중요도"는 선택적인 관심에 의해 희석되었습니다. 이를위한 직관 펌프로서, p=0.05"이 결과는 귀무 가설이 참이더라도 우연히 발생합니다 (시간) 5 %" 라는 것을 기억하십시오 . 따라서 더 많은 테스트를 실행할수록 영향을 미치지 않더라도 적어도 하나 이상의 테스트가 우연히 "중요한"결과가 될 가능성이 높습니다. http://en.wikipedia.org/wiki/Multiple_comparisons 및 http://en.wikipedia.org/wiki/Post-hoc_analysis를 참조하십시오 .

— 제즈
소스

0

나는 당신이 다음을 읽을 것을 제안합니다 :

Anderson, DR, Burnham, KP, Thompson, WL, 2000. 귀무 가설 검정 : 문제, 유병률 및 대안. J. Wildl. 꾸리다. 64, 912-923. Gigerenzer, G., 2004. 무의미한 통계. 사회 경제학 저널 33, 587-606. Johnson, DH, 1999. 통계적 유의성 테스트의 미미. 야생 동물 관리 저널 63, 763-772.

귀무 가설은 실험 또는 관찰 결과에서 귀무를 정확하게 거부하거나 유형 II 오류를 발생시키는 두 가지 결과가 있다는 점에서 거의 흥미롭지 않습니다. 효과 크기는 아마도 결정하는 데 흥미로울 것이며 일단 완료되면 해당 효과 크기에 대한 신뢰 구간을 생성해야합니다.

— 남자 이름
소스