분포와 효과 크기에 대한 아이디어가 없으면 사전 규칙을 모르는 중지 규칙을 가질 수 없습니다.
또한 그렇습니다. 우리는 효과 크기에 초점을 맞출 필요가 있습니다. p- 값만 고려하는 것이 옳은 것으로 간주 된 적이 없으며, 효과 크기보다는 p- 값 또는 F- 값을 보여주는 표나 그래프를 보여주지 않아야합니다.
전통적인 통계적 가설 추론 테스트에는 문제가 있습니다 (Cohen은 약어의 가치가 있다고 말합니다. Fisher와 Pearson은 오늘날 폭력적으로 반대되는 이름으로 수행되는 모든 것을 본다면 무덤에서 뒤집을 것입니다).
N을 결정하려면 분포에 대해 많은 가정을 할뿐만 아니라 목표 유의도 및 검정력 임계 값을 이미 결정해야하며, 특히 설정하려는 효과 크기를 결정해야합니다. 초등학생은 이것이 시작점이되어야한다는 것이 옳습니다. 비용 효과의 최소 효과 크기는 얼마입니까!
"새로운 통계"는 효과 크기 (적절한 경우 쌍 차이로)와 관련 표준 편차 또는 분산 (분포를 이해해야하기 때문에) 및 표준 편차 또는 신뢰 구간 (후자는 이미 p- 값을 잠그고 방향을 예측하는지 또는 각 방향으로 내기를 걸 것인지에 대한 결정). 그러나 과학적 예측으로 지정된 부호의 최소 효과를 설정하면이를 명확하게 알 수 있습니다. 비록 사전 과학적 불이행은 시행 착오를하고 차이점을 찾는 것입니다. 그러나 이런 식으로 가면 정상성에 대한 가정을 다시 한 번하게됩니다.
상자 방식을 비모수 적 접근 방식으로 사용하는 또 다른 방법이 있지만 수염과 특이점에 대한 규칙은 매우 다양하며 그 자체로도 분포 가정에서 비롯됩니다.
중지 문제는 실제로 개별 연구자 설정의 문제가 아니거나 N을 설정하지 않는 문제가 아니라 수천 명의 연구원으로 구성된 전체 커뮤니티가 있으며 여기서 1000은 전통적인 0.05 수준에서 1 / 알파보다 훨씬 큽니다. 대답은 현재 메타 분석을 용이하게하기 위해 요약 통계 (평균, stddev, stderr 또는 상응하는 "비모수 적 버전-중간 값 등)를 제공하여 메타 분석을 용이하게하고 모든 실험의 결과를 종합적으로 제시하는 것입니다. 특정 알파 수준에 도달했는지 여부
여러 테스트 문제가 밀접하게 관련되어 있으며, 이는 어려움과 마찬가지로, 보존력이라는 이름으로 실험이 지나치게 단순하게 유지되는 반면, 결과를 분석하기 위해 복잡한 방법론이 제안됩니다.
나는 우리가 무엇을하고 있는지 거의 알지 못하기 때문에 아직 이것을 결정적으로 다루는 교과서 장이 있다고 생각하지 않습니다 ...
현재 가장 좋은 방법은 문제에 가장 적합한 기존 통계를 계속 사용하고 요약 통계 (효과 및 표준 오류 및 N이 가장 중요)를 표시하는 것입니다. 신뢰 구간을 사용하는 것은 기본적으로 해당 T- 검정과 동일하지만 새로운 결과를 공개 된 결과와 더 의미있게 비교할 수있을뿐만 아니라 재현성을 장려하는 정신을 허용하고 재현 된 실험 및 메타 분석을 게시 할 수 있습니다.
정보 이론 또는 베이지안 접근법의 관점에서, 그들은 다른 도구를 사용하고 다른 가정을하지만, 여전히 모든 답을 얻지 못하고 결국 같은 문제 또는 더 나쁜 문제에 직면합니다. 대답하고 단지 이전에 가정하거나 부재 한 증거를 제시합니다.
결국 머신 러닝은 종종 CI 또는 T- 테스트, 종종 그래프, 단순히 비교하기보다는 짝짓기, 분포가 일치하지 않을 때 적절히 보상 된 버전을 사용하는 등의 중요성에 대해 고려해야 할 결과가 있습니다. 또한 부트 스트래핑 및 교차 검증, 바이어스 및 분산에 대한 논란이 있습니다. 무엇보다도, 수많은 툴박스 중 하나에있는 모든 알고리즘을 철저히 매개 변수화하여 신중하게 보관 된 데이터 세트에 적용하여 무수한 테스트를 수행 할 수 있도록 수많은 대안 모델을 생성하고 테스트하는 경향이 있습니다. 최악의 경우, 평가를 위해 우연히 정확한 방법이 아닌 정확도 또는 더 나쁜 F 측정을 사용하는 것은 여전히 어두운 시대입니다.
나는이 문제에 관한 수십 개의 논문을 읽었지만, 대부분의 연구자들이 "표준과 관련하여 통계를 제대로 처리하고 해석하지 못한다는 부정적인 설문 조사 또는 메타 분석 논문을 제외하고는 완전히 설득력있는 것을 찾지 못했습니다. ", 기존 또는 신규 전원, 다중 테스트, 사이징 및 조기 정지, 표준 오류 및 신뢰 구간 해석 등이 문제의 일부입니다.
제발 날 쏴 버려-틀렸다는 걸 증명하고 싶다! 내 생각에는 목욕물이 많이 있지만 아직 아기를 찾지 못했습니다! 이 단계에서는 극단적 인 견해 나 유명 브랜드의 접근 방식이 유망한 것으로 보이지 않으며 다른 모든 것을 버리려는 사람들은 아마도 아기를 잃어 버렸을 것입니다.