유의성 테스트가 진행되는 한 (또는 중요도 테스트 와 본질적으로 동일한 다른 것 ), 나는 대부분의 상황에서 최선의 접근법이 95 % 신뢰 구간으로 표준화 된 효과 크기를 추정 할 가능성이 있다고 오랫동안 생각 해왔다 효과 크기. 'nil'null의 p- 값이 <.05 인 경우 0은 95 % CI의 외부에 있으며 그 반대도 마찬가지입니다. 내 의견으로는 이것의 장점은 심리적입니다; 즉, 존재하는 중요한 정보를 만들지 만 p- 값만보고 된 사람은 볼 수 없습니다. 예를 들어, 효과가 심각하게 '유의하지만'엄청나게 작다는 것을 쉽게 알 수 있습니다. 또는 '유의하지 않음'이지만 오차 막대가 크지 만 예상 효과가 예상 한 것보다 크거나 작기 때문입니다. 이들은 원시 값과 CI와 쌍을 이룰 수 있습니다.
이제 많은 분야에서 원가는 본질적으로 의미가 있으며, 이미 평균과 기울기와 같은 값이 있다고 가정 할 때 효과 크기 측정을 계산할 가치가 있는지에 대한 의문이 제기된다는 것을 알고 있습니다. 예를 들어 성장이 둔화 될 수 있습니다. 우리는 20 년 오래 된, 흰색 남성 (즉 15 + 5cm) 6 +/- 2인치 짧게하는 것이, 무엇을 의미하는지 아는 것보다 그들이 것, 그렇지 않으면 왜 언급 ? 나는 둘 다보고하는 데 여전히 가치가 있다고 생각하는 경향이 있으며, 추가 작업이 거의 없도록 함수를 계산하여 함수를 작성할 수는 있지만 의견은 다를 수 있음을 알고 있습니다. 여하튼, 나는 포인트 추정치가 신뢰 구간으로 p- 값을 내 반응의 첫 부분으로 대체한다고 주장합니다. 디= − 1.6 ± 0.5
반면에, 더 큰 문제는 '의미 테스트가 실제로 원하는 것을 하는가?'라고 생각합니다. 실제 문제는 데이터를 분석하는 대부분의 사람들 (예를 들어 통계학자가 아닌 실무자)에게 유의성 테스트가 전체 데이터 분석이 될 수 있다고 생각합니다. 가장 중요한 것은 데이터에서 무슨 일이 일어나고 있는지에 대해 생각할 수있는 원칙적인 방법을 갖는 것 같으며, 귀무 가설 유의성 테스트는 기껏해야 아주 작은 부분입니다. 상상의 예를 들어 보겠습니다 (이것이 풍자 만화임을 인정하지만 불행히도 다소 그럴듯한 것 같습니다.)
Bob은 연구를 수행하여 무언가에 대한 데이터를 수집합니다. 그는 데이터가 정상적으로 분산되어 어떤 값을 중심으로 밀집 될 것으로 예상하고, 자신의 데이터가 사전 지정된 값과 '상당히 다른지'확인하기 위해 1- 표본 t- 검정을 수행하려고합니다. 표본을 수집 한 후 데이터가 정상적으로 분포되어 있는지 확인하고 그렇지 않은 것을 발견합니다. 대신, 중앙에 뚜렷한 덩어리가 없지만 주어진 간격 동안 상대적으로 높고 왼쪽 꼬리가 길다. Bob은 자신의 테스트가 유효하도록하기 위해해야 할 일에 대해 걱정합니다. 그는 어떤 일 (예 : 변환, 비모수 적 테스트 등)을 수행 한 다음 테스트 통계 및 p- 값을보고합니다.
나는 이것이 불쾌하게 사라지지 않기를 바랍니다. 나는 누군가를 조롱한다는 의미는 아니지만 이런 일이 가끔 발생한다고 생각합니다. 이 시나리오가 발생하면 데이터 분석이 열악하다는 데 모두 동의 할 수 있습니다. 그러나 문제는 검정 통계량 또는 p- 값이 잘못된 것이 아닙니다. 그 점에서 데이터가 올바르게 처리 되었다. 문제는 밥이 클리블랜드가 "회전 데이터 분석 (rote data analysis)"에 관여하고 있다고 주장한다. 그는 유일한 요점은 올바른 p- 값을 얻는 것이라고 믿는 것으로 보이며 그 목표를 추구하는 것 이외의 데이터에 대해서는 거의 생각하지 않습니다. 그는 위의 제안으로 넘어 가서 95 % 신뢰 구간으로 표준화 된 효과 크기를보고했으며 더 큰 문제로 본 내용을 변경하지 않았을 것입니다. "다른 방법으로). 이 특정한 경우에, 데이터가 그가 예상 한대로 보이지 않았다는 것 (즉, 정상적이지 않은)은 실제 정보이며, 흥미 롭습니다.매우 중요하지만 그 정보는 본질적으로 버려집니다. Bob은 중요성 테스트에 중점을두기 때문에이를 인식하지 못합니다. 내 생각에는 이것이 의미 테스트 의 실제 문제입니다.
언급 된 몇 가지 다른 관점을 다루겠습니다. 저는 다른 사람을 비판하지 않는다는 것을 분명히하고 싶습니다.
- 많은 사람들이 p- 값을 실제로 이해하지 못한다고 언급하는 경우가 많습니다 (예를 들어, 널이 참일 가능성이 있다고 생각하는 경우 등). 저리가 나는 사람들이 베이지안 데이터 분석에 흥미롭고 기계적인 방식으로 접근 할 수 있다고 생각합니다. 그러나 p- 값을 얻는 것이 목표라고 생각한 사람이 없다면 p- 값의 의미를 오해하는 것이 덜 해롭다 고 생각합니다.
- '빅 데이터'의 존재는 일반적으로이 문제와 관련이 없습니다. 빅 데이터는 '의미'에 대한 데이터 분석을 구성하는 것이 도움이되지 않는다는 것을 명백하게합니다.
- 나는 문제가 가설을 테스트하고 있다고 생각하지 않습니다. 사람들이 예상 값이 포인트 값과 같지 않고 간격을 벗어나는 것만보고 싶다면 동일한 문제가 많이 발생할 수 있습니다. (다시 말해, 나는 당신이 '밥'이 아니라는 것을 분명히하고 싶습니다 .)
- 기록을 위해, 나는 첫 번째 단락에서 나 자신의 제안 이 지적하려고 시도했을 때 문제를 다루지 않는다고 언급하고 싶다 .
저에게는 이것이 핵심 이슈입니다. 우리가 정말로 원하는 것은 일어난 일을 생각하는 원칙적인 방법 입니다. 주어진 상황에서 의미하는 바는 잘리고 건조되지 않습니다. 메소드 클래스의 학생들에게이를 전달하는 방법은 명확하지도 않고 쉽지도 않습니다. 유의성 테스트에는 많은 관성과 전통이 있습니다. 통계 수업에서는 무엇을 가르쳐야하며 어떻게해야하는지 분명합니다. 학생들과 실무자들은 자료를 이해하기위한 개념적 스키마와 분석을 수행하기위한 체크리스트 / 흐름표 (일부 보았습니다!)를 개발할 수 있습니다. 유의성 테스트는 멍청하거나 게 으르거나 나쁜 사람없이 자연스럽게 데이터 분석으로 발전 할 수 있습니다. 그게 문제입니다.