나는 데이터 분석의 맥락에서 일부 오류가 설명되는 Nature 에서이 기사를 읽었습니다 . 텍사스 샤프 슈터 오류는 피하는 것이 특히 어렵다는 것을 알았습니다.
데이터 분석 중에 기다리는인지 적 함정은 텍사스 샤프 슈터의 우화에 의해 설명됩니다 : 헛간 측면에서 임의의 총알 패턴을 발사하고 가장 큰 총알 구멍 덩어리 주위에 표적을 그리고 그의 성공.
그의 불즈 아이는 분명히 웃기는 일이지만, 승리를 거둘 때 '뜨거운 손'을 믿는 도박꾼이나 복권 추첨이 모든 홀수로 나타날 때 초자연적 중요성을 보는 사람들에게는 잘못이 분명하지 않습니다.
또한 항상 연구원들에게는 분명하지 않습니다. Pashler는“데이터에서 약간의 격려를 얻은 다음 이것이 내려갈 수있는 길이라고 생각합니다. “27 개의 서로 다른 옵션이 있다는 사실을 인식하지 못하고 가장 호의적이거나 흥미로운 결과를 제공하는 옵션을 선택했습니다. "
나는 일종의 탐사 작업이 일반적이라고 생각하며 종종 가설은 분석의 해당 부분을 기반으로 구성됩니다. 이 프로세스에 전념 하는 전체 접근 방식 ( EDA )이 있습니다.
John Tukey에 의해 탐색 적 데이터 분석이 촉진되어 통계학자가 데이터를 탐색하고 새로운 데이터 수집 및 실험으로 이어질 수있는 가설을 공식화 할 수 있습니다.
사전에 가설을 갖지 않고 수행 된 탐색 적 프로세스는 가짜 가설을 생성하기 쉽습니다.
위의 EDA에 대한 설명은 실제로에 대해 이야기 new data collection and experiments
합니다. 새 데이터가 수집 된 후 확인 데이터 분석 (CDA)이 적절하다는 것을 이해합니다. 그러나 나는이 구분이 매우 명확하지 않다고 생각하며, EDA와 CDA를 분리하는 것이 이상적이지만, 이것이 실현 불가능한 상황도있을 것입니다. 나는이 분리를 따르는 것이 드문 일이며 대부분의 실무자들은 EDA 패러다임을 전혀 구독하지 않는다고 말하고 싶습니다.
내 질문은 : EDA (또는 데이터를 탐색하는 비공식적 인 프로세스)가 텍사스의 명사수에 대한 오류에 더 빠질 가능성이 있습니까?