데이터 분석을 마치고 가설과 일치하는 "통계적으로 유의미한 결과"를 얻었습니다. 그러나 통계학의 한 학생은 이것이 조기 결론이라고 말했습니다. 왜? 보고서에 포함해야 할 다른 것이 있습니까?
데이터 분석을 마치고 가설과 일치하는 "통계적으로 유의미한 결과"를 얻었습니다. 그러나 통계학의 한 학생은 이것이 조기 결론이라고 말했습니다. 왜? 보고서에 포함해야 할 다른 것이 있습니까?
답변:
일반적으로 가설은 이진 방식으로 구성됩니다. 방향성 가설을 한쪽에 두겠습니다. 문제를 많이 바꾸지 않기 때문입니다. 적어도 심리학에서는 다음과 같은 가설에 대해 이야기하는 것이 일반적입니다. 그룹 평균 간의 차이가 0이거나 그렇지 않습니다. 상관 관계는 0이거나 0이 아닙니다. 회귀 계수는 0이거나 0이 아니며; r- 제곱은 0이거나 0이 아니다. 이 모든 경우에 효과가 없다는 귀무 가설과 효과의 대체 가설이 있습니다.
이 이진 사고는 일반적으로 우리가 가장 관심이있는 것이 아닙니다. 일단 연구 질문에 대해 생각하면 거의 항상 매개 변수 추정에 관심이 있다는 것을 알게 될 것입니다. 그룹 평균 간의 실제 차이, 상관의 크기 또는 회귀 계수의 크기 또는 설명 된 분산의 양에 관심이 있습니다.
물론 표본 데이터를 얻을 때 모수의 표본 추정치는 모집단 모수와 동일하지 않습니다. 따라서 매개 변수의 값이 무엇인지에 대한 불확실성을 정량화하는 방법이 필요합니다. 베이지안 순수 주의자들은 자신들이 원하는 추론을 엄격하게 허용하지 않는다고 주장 할 수도 있지만, 빈번한 관점에서, 신뢰 구간은 행동의 수단을 제공합니다. 베이지안 관점에서, 후방 밀도의 신뢰할 수있는 간격은 모집단 모수 값에 대한 불확실성을 정량화하는보다 직접적인 수단을 제공합니다.
이진 가설 검정 접근 방식을 벗어나면 지속적으로 생각해야합니다. 예를 들어, 그룹의 크기 차이가 이론적으로 흥미로운 것은 무엇입니까? 그룹 평균의 차이를 주관적 언어 또는 실제적 의미에 어떻게 매핑 하시겠습니까? 상황 별 규범과 함께 표준화 된 효과 측정은 서로 다른 매개 변수 값의 의미를 정량화하기위한 언어를 구축하는 한 가지 방법입니다. 이러한 측정은 종종 "효과 크기" (예 : Cohen 's d, r, 등)로 표시됩니다. 그러나 표준화되지 않은 측정을 사용하는 효과의 중요성 (예 : 소득 수준, 기대 수명 등과 같은 의미있는 표준화되지 않은 변수에 대한 그룹 평균의 차이)에 대해 이야기하는 것이 완벽하고 합리적이며 종종 바람직합니다.
p- 값, 귀무 가설 유의성 테스트 등에 중점을 두는 심리학 (및 기타 분야)에 대한 거대한 문헌이 있습니다 (이 Google Scholar 검색 참조 ). 이 문헌은 종종 신뢰 구간이있는보고 효과 크기를 해결책으로 권장합니다 (예 : APA Task force by Wilkinson, 1999).
이 생각을 채택하려고 생각하는 경우 점진적으로 더 정교한 접근 방식을 취할 수 있다고 생각합니다.
많은 참고 문헌 중에서 Andrew Gelman 이 자신의 블로그 및 연구에서 이러한 문제에 대해 많이 이야기하는 것을 볼 수 있습니다 .
기존 답변에 추가하기 만하면됩니다. 통계적 유의성은 표본 크기의 함수 라는 것을 알고 있어야합니다 .
점점 더 많은 데이터를 얻으면 어디서나 통계적으로 유의미한 차이를 찾을 수 있습니다. 데이터의 양이 크면 아주 작은 효과조차도 통계적으로 유의할 수 있습니다. 그렇다고 실제 효과가 의미있는 것은 아닙니다.
차이를 테스트 할 때는 통계적으로 유의미한 결과를 생성하는 데 필요한 효과 크기가 샘플 크기가 증가함에 따라 감소 하기 때문에 만으로는 충분하지 않습니다 . 실제로, 실제 질문은 일반적으로 주어진 최소 크기 (관련성)의 영향이 있는지 여부입니다. 표본이 매우 커지면 은 실제 질문 에 답하는 데 의미가 없어집니다 .p
귀하의 연구를 실행하기 전에 귀하의 가설이 사실이라고 의심 할만한 합리적인 근거가 있다면; 그리고 당신은 좋은 연구를하였습니다 (예를 들어, 당신은 혼란을 유발하지 않았습니다); 결과는 가설과 일치하고 통계적으로 유의했습니다. 그때까지는 당신이 괜찮다고 생각합니다.
그러나 결과에 중요한 의미가 있다고 생각해서는 안됩니다. 먼저, 효과 크기 도 살펴 봐야 합니다 (여기서 내 대답 : 유의성 검정에 대한 가설로서의 효과 크기 참조 ). 또한 데이터를 조금 살펴보고 후속 조치가 필요한 잠재적으로 흥미로운 놀라움을 찾을 수 있는지 확인하고 싶을 수도 있습니다.
이것과 이것 그리고 이것 그리고 이것을보고하기 전에 실험 데이터로부터 무엇을 배우고 싶은지 공식화하십시오. 일반적인 가설 검정 (학교에서 배운 시험 ...)의 주요 문제는 이진성이 아닙니다. 주요 문제는 관심 가설이 아닌 가설 검정이라는 것입니다. 슬라이드 13을 참조하십시오 (애니메이션을 감상하려면 pdf를 다운로드하십시오). 효과 크기에 대해서는이 개념에 대한 일반적인 정의가 없습니다 . 솔직히 나는 전문가가 아닌 통계 전문가에게 이것을 사용하지 않는 것이 좋습니다. 이것들은 "효과"에 대한 기술적이지 자연스럽지 않습니다. 관심있는 가설은 일반인이 이해할 수있는 용어로 공식화되어야합니다.
통계 전문가와는 거리가 멀지 만 지금까지 한 통계 과정에서 강조한 것은 "실용적 중요성"문제입니다. 나는 이것이 "효과 크기"를 언급 할 때 Jeromy와 gung이 말하고있는 것을 암시한다고 믿는다.
통계적으로 유의 한 체중 감량 결과를 보인 12 주식이 클래스의 예가 있었지만 95 % 신뢰 구간은 0.2 ~ 1.2kg의 평균 체중 감소를 나타 냈습니다 (데이터는 아마 구성되었지만 요점을 보여줍니다) . "통계적으로 유의미한"은 0과 다르지만 12 주에 걸친 200 그램의 체중 감소가 과체중 인 사람이 "실제적으로 유의 한"결과인가?
당신의 연구와 그 사람의 비판에 대한 자세한 내용을 알지 못하면 정확하게 대답 할 수 없습니다. 그러나 여기에는 한 가지 가능성이 있습니다. 여러 테스트를 실행하고 다른 테스트에서 나온 테스트에 집중하기로 p<0.05
선택한 경우 "중요도"는 선택적인 관심에 의해 희석되었습니다. 이를위한 직관 펌프로서, p=0.05
"이 결과는 귀무 가설이 참이더라도 우연히 발생합니다 (시간) 5 %" 라는 것을 기억하십시오 . 따라서 더 많은 테스트를 실행할수록 영향을 미치지 않더라도 적어도 하나 이상의 테스트가 우연히 "중요한"결과가 될 가능성이 높습니다. http://en.wikipedia.org/wiki/Multiple_comparisons 및 http://en.wikipedia.org/wiki/Post-hoc_analysis를 참조하십시오 .
나는 당신이 다음을 읽을 것을 제안합니다 :
Anderson, DR, Burnham, KP, Thompson, WL, 2000. 귀무 가설 검정 : 문제, 유병률 및 대안. J. Wildl. 꾸리다. 64, 912-923. Gigerenzer, G., 2004. 무의미한 통계. 사회 경제학 저널 33, 587-606. Johnson, DH, 1999. 통계적 유의성 테스트의 미미. 야생 동물 관리 저널 63, 763-772.
귀무 가설은 실험 또는 관찰 결과에서 귀무를 정확하게 거부하거나 유형 II 오류를 발생시키는 두 가지 결과가 있다는 점에서 거의 흥미롭지 않습니다. 효과 크기는 아마도 결정하는 데 흥미로울 것이며 일단 완료되면 해당 효과 크기에 대한 신뢰 구간을 생성해야합니다.