교과서에없는 선택적 중지 규칙


16

중지 규칙은 P- 값과 의사 결정과 관련된 오류율 간의 관계에 영향을줍니다. Simmons 등의 최근 논문. 2011 년 에는 연구자 자유도 라는 용어 가 재현 불가능한 것으로 밝혀진 심리학 문헌의 많은 보고서를 담당하는 것으로 간주되는 행동의 모음을 설명합니다.

이러한 행동 중, 선택적인 중지 규칙 또는 선언되지 않은 임시 분석은 현재 내가 관심을 갖고있는 것입니다. 학생들에게 오류율에 미치는 영향을 설명하지만 학생들이 사용하는 교과서에는 설명되어 있지 않은 것 같습니다. 사용하다!). 우리 대학의 주요 서점에는 바이오 사이언스, 비즈니스, 공학 등과 같은 다양한 분야의 입문 수준의 학생들을 대상으로하는 14 개의 통계 교과서가 있습니다.이 텍스트 중 하나에 만 "순차 테스트"라는 색인 항목이 포함되어 있고 ' 중지 규칙 '.

선택적 중지 규칙 문제를 설명하는 입문 수준 통계 교과서가 있습니까?

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). 틀린 긍정적 심리학 : 데이터 수집 및 분석에 공개되지 않은 유연성으로 인해 중요한 것을 제시 할 수 있습니다. 심리 과학, 22 (11), 1359–1366. 도 : 10.1177 / 0956797611417632


1
자주 사용하는 통계를 버리고 IT 또는 베이지안 방법을 사용하면 문제가 해결되지 않습니까? (또는 데이터 세트의 크기에 따라 순수한 머신 러닝) 플립 팬트가 아닙니다. 피셔와 NP의 호환되지 않는 매시업은 "정확하게"수행 된 경우에도 아무 문제도 발생하지 않습니다. 앞으로는 더 이상 잦은 사람들이 없을 것입니다.
thedude

1
예, 주파수 원칙을 준수해야하는 방법을 사용하지 않으면 문제가 사라집니다. 그러나 이러한 미래는이 세상에서 오지 않을 수 있습니다. IT 란 무엇입니까?
Michael Lew-복원 Monica Monica

2
@Michael : 의심 할 여지없이 그것은 (정보 IT) "정보 이론"의 약자입니다.
추기경


2
다른 이론적 프레임 워크를 사용하는 @thedude는 다른 문제를 일으킨다 . 여기서 문제는 여러분이 수학을 세상에 대한 설명이 아닌 다른 것으로 취급한다는 것입니다. 빈번한 통계는 세상을 설명하는 매우 유용한 방법 중 하나이며, 베이지안은 또 다른 방법입니다. 또한 진실오라클을 제공하지 않습니다 .
Indolering

답변:


2

분포와 효과 크기에 대한 아이디어가 없으면 사전 규칙을 모르는 중지 규칙을 가질 수 없습니다.

또한 그렇습니다. 우리는 효과 크기에 초점을 맞출 필요가 있습니다. p- 값만 고려하는 것이 옳은 것으로 간주 된 적이 없으며, 효과 크기보다는 p- 값 또는 F- 값을 보여주는 표나 그래프를 보여주지 않아야합니다.

전통적인 통계적 가설 추론 테스트에는 문제가 있습니다 (Cohen은 약어의 가치가 있다고 말합니다. Fisher와 Pearson은 오늘날 폭력적으로 반대되는 이름으로 수행되는 모든 것을 본다면 무덤에서 뒤집을 것입니다).

N을 결정하려면 분포에 대해 많은 가정을 할뿐만 아니라 목표 유의도 및 검정력 임계 값을 이미 결정해야하며, 특히 설정하려는 효과 크기를 결정해야합니다. 초등학생은 이것이 시작점이되어야한다는 것이 옳습니다. 비용 효과의 최소 효과 크기는 얼마입니까!

"새로운 통계"는 효과 크기 (적절한 경우 쌍 차이로)와 관련 표준 편차 또는 분산 (분포를 이해해야하기 때문에) 및 표준 편차 또는 신뢰 구간 (후자는 이미 p- 값을 잠그고 방향을 예측하는지 또는 각 방향으로 내기를 걸 것인지에 대한 결정). 그러나 과학적 예측으로 지정된 부호의 최소 효과를 설정하면이를 명확하게 알 수 있습니다. 비록 사전 과학적 불이행은 시행 착오를하고 차이점을 찾는 것입니다. 그러나 이런 식으로 가면 정상성에 대한 가정을 다시 한 번하게됩니다.

상자 방식을 비모수 적 접근 방식으로 사용하는 또 다른 방법이 있지만 수염과 특이점에 대한 규칙은 매우 다양하며 그 자체로도 분포 가정에서 비롯됩니다.

중지 문제는 실제로 개별 연구자 설정의 문제가 아니거나 N을 설정하지 않는 문제가 아니라 수천 명의 연구원으로 구성된 전체 커뮤니티가 있으며 여기서 1000은 전통적인 0.05 수준에서 1 / 알파보다 훨씬 큽니다. 대답은 현재 메타 분석을 용이하게하기 위해 요약 통계 (평균, stddev, stderr 또는 상응하는 "비모수 적 버전-중간 값 등)를 제공하여 메타 분석을 용이하게하고 모든 실험의 결과를 종합적으로 제시하는 것입니다. 특정 알파 수준에 도달했는지 여부

여러 테스트 문제가 밀접하게 관련되어 있으며, 이는 어려움과 마찬가지로, 보존력이라는 이름으로 실험이 지나치게 단순하게 유지되는 반면, 결과를 분석하기 위해 복잡한 방법론이 제안됩니다.

나는 우리가 무엇을하고 있는지 거의 알지 못하기 때문에 아직 이것을 결정적으로 다루는 교과서 장이 있다고 생각하지 않습니다 ...

현재 가장 좋은 방법은 문제에 가장 적합한 기존 통계를 계속 사용하고 요약 통계 (효과 및 표준 오류 및 N이 가장 중요)를 표시하는 것입니다. 신뢰 구간을 사용하는 것은 기본적으로 해당 T- 검정과 동일하지만 새로운 결과를 공개 된 결과와 더 의미있게 비교할 수있을뿐만 아니라 재현성을 장려하는 정신을 허용하고 재현 된 실험 및 메타 분석을 게시 할 수 있습니다.

정보 이론 또는 베이지안 접근법의 관점에서, 그들은 다른 도구를 사용하고 다른 가정을하지만, 여전히 모든 답을 얻지 못하고 결국 같은 문제 또는 더 나쁜 문제에 직면합니다. 대답하고 단지 이전에 가정하거나 부재 한 증거를 제시합니다.

결국 머신 러닝은 종종 CI 또는 T- 테스트, 종종 그래프, 단순히 비교하기보다는 짝짓기, 분포가 일치하지 않을 때 적절히 보상 된 버전을 사용하는 등의 중요성에 대해 고려해야 할 결과가 있습니다. 또한 부트 스트래핑 및 교차 검증, 바이어스 및 분산에 대한 논란이 있습니다. 무엇보다도, 수많은 툴박스 중 하나에있는 모든 알고리즘을 철저히 매개 변수화하여 신중하게 보관 된 데이터 세트에 적용하여 무수한 테스트를 수행 할 수 있도록 수많은 대안 모델을 생성하고 테스트하는 경향이 있습니다. 최악의 경우, 평가를 위해 우연히 정확한 방법이 아닌 정확도 또는 더 나쁜 F 측정을 사용하는 것은 여전히 ​​어두운 시대입니다.

나는이 문제에 관한 수십 개의 논문을 읽었지만, 대부분의 연구자들이 "표준과 관련하여 통계를 제대로 처리하고 해석하지 못한다는 부정적인 설문 조사 또는 메타 분석 논문을 제외하고는 완전히 설득력있는 것을 찾지 못했습니다. ", 기존 또는 신규 전원, 다중 테스트, 사이징 및 조기 정지, 표준 오류 및 신뢰 구간 해석 등이 문제의 일부입니다.

제발 날 쏴 버려-틀렸다는 걸 증명하고 싶다! 내 생각에는 목욕물이 많이 있지만 아직 아기를 찾지 못했습니다! 이 단계에서는 극단적 인 견해 나 유명 브랜드의 접근 방식이 유망한 것으로 보이지 않으며 다른 모든 것을 버리려는 사람들은 아마도 아기를 잃어 버렸을 것입니다.


당신을 격추시키는 것은 중요하지 않습니다. 나는 이러한 문제에 대한 해결책이있을 수 있다고 생각하지 않습니다. 우리는 세상의 패턴을 인식하는 인간이며, 수렴 타당도로 정착해야합니다. 신을 증명하려는 그의 가난한 시도가 존재 한 후, 데카르트는 수렴 적 타당성으로 번져 갔다. 때때로 그것은 존재하지만 때로는 존재하지 않지만, 우리는 대부분 무한한인지 계산 능력에 맞서게됩니다.
Indolering

1

선택적 "중지 규칙"이 최적의 정지와 관련하여 기술적 용어 라고 생각하지 않습니다 . 그러나 소개 수준의 심리학 통계 교과서에서 주제에 대해 심도있는 토론을 찾을 수 있을지 의문입니다.

이에 대한 냉소적 인 근거는 모든 사회 과학 학생들이 수학 능력이 약하다는 것입니다. 더 나은 대답은 IMHO는 간단한 t- 검정은 대부분의 사회 과학 실험에 적합하지 않다는 것입니다. 효과 강도를보고 그룹 간의 차이를 해결하는지 알아 내야합니다. 전자는 후자가 가능 하지만 그것이 할 수있는 전부임을 나타낼 수 있습니다.

복지 지출, 국가 규제 및 도시화의 측정은 모두 종교적 행동의 측정과 통계적으로 중요한 관계가 있습니다. 그러나 p- 값을 명시하는 것은 테스트를 전혀 또는 전혀없는 인과 관계로 구성하는 것입니다. 다음을 참조하십시오.

여기에 이미지 설명을 입력하십시오

복지 지출도시화의 결과 는 통계적으로 유의 한 p- 값을 갖지만 복지 지출은 훨씬 더 밀접한 상관 관계가 있습니다. 즉, 복지 지출 쇼 종교성 (다른 조치 등 강력한 관계를 비 종교 속도 뿐만 아니라 종교에 편안하게 하는) 도시화 도의 p- 값을 달성하지 않는 < .10것을 제안, 도시화 일반적으로 종교적 신념에 영향을하지 않습니다. 그러나 복지 지출 조차도 아일랜드 나 필리핀을 설명하지 않으며, 다른 효과가 복지 지출 보다 상대적으로 더 강하다는 것을 보여 줍니다.

"중지 규칙"에 의존하면 특히 작은 표본 크기의 심리학에서 오 탐지가 발생할 수 있습니다. 이러한 통계적 스 나니 건들에 의해 필드로서의 심리학은 실제로 보류되고 있습니다. 그러나 우리의 모든 믿음을 임의의 p- 값에 두는 것도 꽤 어리 석습니다. 우리 모두가 실험을 실시하기 전에 저널에 우리의 샘플 크기 및 가설 문을 보내더라도, 우리는 아직도 학계로 오탐 (false positive)으로 실행됩니다 공동으로 통계적 유의성을위한 건지.

올바른 것은 데이터 마이닝을 중단하는 것이 아니라 효과와 관련된 결과를 설명하는 것 입니다. 이론은 예측의 정확성뿐만 아니라 예측의 유용성 에 의해 판단 됩니다. 연구 방법론이 아무리 우수하더라도 감기 증상을 1 % 개선하는 약물은 캡슐에 포장하는 비용이 들지 않습니다.

업데이트 저는 사회 과학자들이 더 높은 표준을 준수해야한다는 데 전적으로 동의합니다. 우리는 교육을 개선하고 사회 과학자들에게 더 나은 도구를 제공하고 중요성 수준을 3 시그마로 높여야합니다. 나는 표현이 부족한 부분을 강조하려고 노력하고 있습니다. 효과의 크기가 너무 작기 때문에 대부분의 심리학 연구는 가치가 없습니다.

그러나 Amazon Turk를 사용하면 10 개의 병행 연구를 적절히 보상하고 3 시그마 초과> 3 시그마 신뢰 수준을 매우 저렴하게 유지할 수 있습니다. 그러나 효과 강도가 작은 경우 외부 유효성에 심각한 위협이 있습니다. 조작의 영향은 뉴스 기사 또는 질문의 순서 또는 ....

나는 에세이에 대한 시간이 없지만 사회 과학의 질 문제는 까다로운 통계 방법을 훨씬 뛰어 넘습니다.


나는 여기에 사회 학적 (보통 비 실험적 연구)과 임상 시험의 일부가 있음을 이해합니다. 그러나 첫 번째 문장은 의미가 없습니다. 규칙을 중지하는 것은 임상 시험에서 큰 연구 분야입니다. 이에 대한 이론적 근거는 순차적으로 테스트 된 여러 개의 상관 가설이 사전 지정된 분석 계획의 일부라는 것입니다 . 그러나 OPs 질문의 링크는 나쁜 수학 문제가 아니며 나쁜 과학 중 하나입니다. 올바른 분석을 "느끼기"위해 여러 가지 통계 테스트를 수행하고 중요성을 발견 할 때 중지하는 것은 과학을 어떻게 자르 든 나쁜 과학입니다.
AdamO

@AdamO 동의합니다! 내가 이것을 쓸 때, 나는 데이터 마이닝 방법을 사용하려고 노력하는 저학년이었고 내가 모든 것을 올바르게하고 있는지 확인하려고 할 때 교수와 통계 학자로부터 얻은 초기 반응은 순진했다. 아이러니하게도, 사회 과학 실험실의 표준 운영 절차는 흥미로운 것을 찾을 때까지 파일럿 연구를 수행하는 것입니다. 나는 똑같은 일을했지만 실제로 그것을 보상하려고 노력했다. p
Indolering

0

인용 한 기사는 규칙 중지에 대해 언급하지 않았으며 당면한 문제와 거의 관련이없는 것으로 보입니다. 그들의 유일한, 아주 작은 관계는 과학적 개념 이 아닌 통계 개념 인 다중 테스트의 관계입니다 .

임상 시험 문헌에서 연구는 "연도"가 보이는 조건에 대한 명시 적 정보 (달력 또는 개인별 등록, 알파 수준 설정 및 "유효한"대 "유해한"치료에 대한 효과에 또한 제한된다. 사실, 우리는 할 과학의 예와 같은 연구의 엄격한 행동으로 보여야 아니라 . FDA는 심지어 미리 지정된 것 이외의 다른 효능을 발견 한 후에는 이러한 발견을 검증하기 위해 두 번째 시험을 수행해야합니다. 토마스 플레밍 (Thomas Flemming)은 모든 임상 연구에서별도의 주체가 수행 하는 완전히 독립적 인 2 차 확인 시험으로 검증되었습니다 . 삶과 의료를 고려할 때 잘못된 양성 오류의 문제는 너무 나쁩니다.

무해한 감독으로 다른 과학 분야는 연구에서 나쁜 윤리를 영속 시켰습니다. 실제로, 사회 과학은 사람들이받는 치료에 영향을 미치지 않으며, 이론과 관찰의 상호 작용에 대한 이해를 향상시키는 추상 및 개념적 모델을 다룹니다. 그러나 평신도 또는 과학 사회 과학 소비자는 종종 상충되는 결과를 제시합니다. 초콜릿은 당신에게 좋고 초콜릿은 당신에게 좋지 않습니다 (초콜릿은 설탕과 지방에 좋습니다)초콜릿은 당신에게 나쁘다), 섹스는 당신에게 좋으며, 결혼은 당신을 슬프게하거나 결혼하게하면 행복해진다. 이 분야는 나쁜 과학으로 인해 사라졌습니다. 심지어 나는 인과 관계가 강한 언어에 만족하지 않는 분석에 대해 유죄를 선고했는데, 그 후 인과 관계에 대한 정책과 연방의 지원에 관한 강력한 권고 사항과 관련이 있었지만 출판되지 않았다.

시몬스의 기사는 효과적으로 공개 가 연구자들이 사회학에서하는 "바로 가기"의 종류를 명시 적으로 표현하는 데 어떻게 도움이 되는지 설명 합니다. 시몬스 (Simmons)는 데이터 준설이 비 윤리적 과학자 "결과물 낚시"의 전형적인 방식으로 오 탐지율을 극적으로 증가시키는 방법의 예를 표 1에 제공한다. 표 2의 결과 요약은 하나 이상의 분석이 어떻게 수행 될 수 있는지에 대한 이해를 크게 향상시키는 데 도움이되는 기사에서 자주 생략되는 측면을 설명합니다.

요약하면, 규칙을 중지하는 것은 사전에 지정된 가설에만 적합합니다. 윤리적으로 건전하며 통계적 방법이 필요합니다. 시몬스 (Simons)의 기사는 많은 연구가 그것을 인정하지도 않으며, 윤리적으로 불건전하지만 통계 언어 는 왜 그것이 왜 틀렸는 지 강요하고있다.


인용 된 논문이 현재 문제와 거의 관련이 없다고 말하는 이유를 이해하지 못합니다. 여기에는 선택적 중지에 관한 "샘플 크기의 유연성에 대한 면밀한 검토"라는 헤드 라인 섹션이 포함되어 있습니다. 다시 한번 봐
Michael Lew-복원 Monica Monica

@Michael 답변을 요약하면 다음과 같습니다. 정지 규칙은 임상 시험, 모집 및 후속 조치와 관련이 있지만 사전 지정된 단일 가설을 테스트하는 것은 FDA 장치 및 치료제 연구에서 허용되는 관행입니다. Simmons의 논문은 사회 의학 연구 및 학계의 연구 윤리, 기준 및 p- 해킹에 대해 설명합니다. 관계를 어떻게 볼 수 있는지 더 정확하게 설명 할 수 있습니까? 아마도 게시물을 편집하여 용어를 정의하고 다른 문헌, 특히 AFAIK가 임상 시험 외부에는 존재하지 않는 "중지 규칙"에 관한 참조를 제공 할 수 있습니다.
AdamO

또한 "다른 과학 분야가 연구에서 나쁜 윤리를 영속시켰다"는 당신의 특성이 공정하거나 도움이된다고 생각하지 않습니다. 내 원래의 질문의 요점은 시간제 통계 사용자가 선언되지 않은 중간 분석으로 인해 발생할 수있는 잠재적 인 문제를 알고있을 이유가 없다는 것입니다. 무지를 비 윤리적이라고 부르는 것은 불공평합니다.
Michael Lew-복직 모니카

@Michael "중간 분석"으로 무엇을 정의하고 있습니까?
AdamO

아담, 나는 당신이 "임상 시험 밖에서 규칙을 멈추지 않는다"고 말하는 것이 옳다고 생각하지 않습니다. 그들은 종종 임상 시험 밖에서 언급되지 않을 수도 있지만 (원래 질문 참조) 모든 실험에 존재합니다. 고정 된 샘플 크기 시험조차도 '샘플 크기에 도달 할 때까지 계속'중지 규칙이 있습니다.
Michael
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.