여러 번 나는 "데이터 스누핑"에 대한 비공식적 인 경고를 겪었으며 (여기서는 재미있는 예가있다 ), 그것이 의미하는 바가 무엇이고 왜 그것이 문제가 될 수 있는지에 대한 직관적 인 생각이 있다고 생각한다.
다른 한편으로, "탐사 데이터 분석"은 적어도 그 제목 을 가진 책 이 여전히 고전적인 것으로 인용 된다는 사실에 의해 판단 할 때 통계에서 완벽하게 존경받을만한 절차 인 것 같습니다 .
내 업무 라인에서 나는 종종 "데이터 스누핑"처럼 보이는 것을 발견하거나 아마도 "데이터 고문 " 으로 더 잘 설명 될 수 있지만, 그렇게하는 사람들은 완전히 합리적이고 문제가없는 "탐사와 동일한 활동을 보는 것처럼 보인다. ".
전형적인 시나리오는 다음과 같습니다 : (비교적 분석에 대한 많은 생각없이) 값 비싼 실험이 수행되고, 원래의 연구원들은 수집 된 데이터에서 "이야기"를 쉽게 식별 할 수 없으며, 누군가가 "통계적 마법사"를 적용하도록 가져옵니다. , 모든 방법으로 데이터를 자르고 자른 후 마침내 데이터에서 게시 가능한 "스토리"를 추출합니다.
물론, 최종 보고서 / 종이에는 통계적 분석이 최신 상태임을 보여주는 몇 가지 "유효성 검증"이 있지만, 그 뒤에 숨은 뻔뻔한 출판 태도는 모두 의심 스럽다.
불행히도, 데이터 분석의 유무에 대한 제한적인 이해는 그러한 모호한 의심을 넘어 가지 못하게합니다. 따라서 저의 보수적 인 반응은 기본적으로 그러한 발견을 무시하는 것입니다.
나는 탐사와 스누핑 / 고문의 구별에 대한 더 나은 이해뿐만 아니라, 그 선이 넘어 졌을 때를 탐지하는 원리와 기술을 더 잘 이해함으로써 그러한 발견을 평가할 수 있기를 희망한다. 최적화되지 않은 분석 절차를 합리적으로 설명 할 수있는 방법으로, 현재의 단순한 불신의 담요 불신에 대한 반응을 넘어 설 수 있습니다.
편집 : 매우 흥미로운 의견과 답변에 감사드립니다. 그들의 내용으로 판단 할 때, 나는 내 질문을 충분히 설명하지 못했다고 생각합니다. 이번 업데이트로 문제가 해결되기를 바랍니다.
여기에 내 질문이 너무 많은 것이 아니다 우려 내가 고문 방지하기 위해 어떻게해야 내 내가 그 결과를 생각 (또는 평가) 방법 :이 아니라 (이 또한 관심사 나있는 질문이지만) 데이터를 사실에 대해 내가 아는이 를 통해 도착 된이 그런 "데이터 고문."
상황이 더욱 흥미로워 져서 (아주 드물지만) 출판을 위해 제출되기 전에 그러한 "발견"에 대한 의견을 제시 할 수있는 입장에 있습니다.
이 시점에서 내가 할 수 있는 가장 큰 것은 "이러한 연구 결과를 얻는 데 필요한 가정과 절차에 대해 알고있는 것을 감안할 때 이러한 연구 결과에 얼마나 많은 신뢰를 줄 수 있는지 모르겠습니다."입니다. 이것은 말조차 할 가치가 너무 모호합니다. 그런 모호함을 넘어 가고 싶었던 것은 내 게시물의 동기였습니다.
공평하게 말해서, 여기의 의심은 의심스러워 보이는 통계적 방법보다 더 많은 것입니다. 사실, 나는 후자를 더 깊은 문제의 결과로 본다. 실험 설계에 대한 무심한 태도와 결과를 발표 할 때 (즉, 더 이상의 실험없이) 게시하려는 범주적인 약속과 결합한 것이다. 물론, 후속 프로젝트는 항상 상상하고 있지만 그것은 단순히 아웃 오브 질문 , 하나의 종이 말, 나올 것하지 않는 것이 "10 만 개 샘플로 가득 찬 냉장고."
통계는이 최고의 목표를 달성하기위한 수단으로 만 제시됩니다. 통계 전체에 걸쇠를 두는 유일한 이유는 (전체 시나리오에서와 같이 2 차적 임) "모든 비용으로 출판"이라는 가정에 대한 정면 도전은 무의미하다는 것입니다.
실제로, 나는 그러한 상황에서 하나의 효과적인 반응 만 생각할 수 있습니다. 분석의 질을 실제로 테스트하는 통계 테스트 (추가 실험이 필요하지 않음)를 제안하는 것입니다. 그러나 나는 단지 통계에 대한 정보가 없습니다. 내 소망 (순진하게)은 내가 그러한 시험을 내놓을 수있는 것을 연구 할 수있는 것을 찾는 것이 었습니다 ...
이 글을 쓸 때, 그것이 존재하지 않는다면, 세계는 "데이터 고문"을 탐지하고 노출시키기위한 기술에 전념하는 하나의 새로운 하위 브랜치 통계를 사용할 수 있습니다. (물론, 나는 "고문"은유에 의해 쫓겨 난다는 것을 의미하지는 않는다. 문제는 그 자체로 "데이터 고문"이 아니라, 그로 인한 가짜 "발견"이다.