탐색 적 데이터 분석에서 텍사스의 명사수


23

나는 데이터 분석의 맥락에서 일부 오류가 설명되는 Nature 에서이 기사를 읽었습니다 . 텍사스 샤프 슈터 오류는 피하는 것이 특히 어렵다는 것을 알았습니다.

데이터 분석 중에 기다리는인지 적 함정은 텍사스 샤프 슈터의 우화에 의해 설명됩니다 : 헛간 측면에서 임의의 총알 패턴을 발사하고 가장 큰 총알 구멍 덩어리 주위에 표적을 그리고 그의 성공.

그의 불즈 아이는 분명히 웃기는 일이지만, 승리를 거둘 때 '뜨거운 손'을 믿는 도박꾼이나 복권 추첨이 모든 홀수로 나타날 때 초자연적 중요성을 보는 사람들에게는 잘못이 분명하지 않습니다.

또한 항상 연구원들에게는 분명하지 않습니다. Pashler는“데이터에서 약간의 격려를 얻은 다음 이것이 내려갈 수있는 길이라고 생각합니다. “27 개의 서로 다른 옵션이 있다는 사실을 인식하지 못하고 가장 호의적이거나 흥미로운 결과를 제공하는 옵션을 선택했습니다. "

나는 일종의 탐사 작업이 일반적이라고 생각하며 종종 가설은 분석의 해당 부분을 기반으로 구성됩니다. 이 프로세스에 전념 하는 전체 접근 방식 ( EDA )이 있습니다.

John Tukey에 의해 탐색 적 데이터 분석이 촉진되어 통계학자가 데이터를 탐색하고 새로운 데이터 수집 및 실험으로 이어질 수있는 가설을 공식화 할 수 있습니다.

사전에 가설을 갖지 않고 수행 된 탐색 적 프로세스는 가짜 가설을 생성하기 쉽습니다.

위의 EDA에 대한 설명은 실제로에 대해 이야기 new data collection and experiments합니다. 새 데이터가 수집 된 후 확인 데이터 분석 (CDA)이 적절하다는 것을 이해합니다. 그러나 나는이 구분이 매우 명확하지 않다고 생각하며, EDA와 CDA를 분리하는 것이 이상적이지만, 이것이 실현 불가능한 상황도있을 것입니다. 나는이 분리를 따르는 것이 드문 일이며 대부분의 실무자들은 EDA 패러다임을 전혀 구독하지 않는다고 말하고 싶습니다.

내 질문은 : EDA (또는 데이터를 탐색하는 비공식적 인 프로세스)가 텍사스의 명사수에 대한 오류에 더 빠질 가능성이 있습니까?


3
"가상 가설"이 무슨 뜻인지 정확히 모르겠습니다. 탐색 적 데이터 분석의 정신은 데이터를보고 예상치 못한 패턴을 포함하여 다양한 패턴에 개방하는 것입니다. 더 적고 더 많지 않습니다. 탐색 적 데이터 분석의 어떤 것도 좋은 아이디어를 보장하지 않으며 아무것도 배제하지 않으며 비판적 사고를 배제하거나 자신이하는 일을 기초 과학 (광의의 의미)과 연계시킬 수 없습니다. 따라서 아무도 경험하지 못한 것들에 대해 EDA를 비판 할 위험이 있습니다. 또는 아무도 지원하지 않습니다.
Nick Cox

3
EDA에서 배우고 가르치기 가장 어려운 점은 (가장 낙관적 인 계정에서) 유의성 테스트가 도움을 주어야 할 것입니다.주의를 기울일만큼 중요하지 않은 데이터의 세부 사항을 과도하게 해석하지 않는 습관을들이는 것입니다. . 나는 EDA에 대한 많은 설명이 패턴을 심각하게 받아들이 기 위해서는 다른 데이터 세트에서 식별 할 수 있어야한다는 생각을 충분히 강요하지는 않지만 통계학 전반에 걸쳐 소홀히 여겨진다 고 주장한다.
Nick Cox

1
감사. 문제는 많은 가설을 생성하고 동일한 데이터 세트에서 테스트하는 것이 실제로 위험하다는 것입니다. Creosote가 설명했듯이 p- 값을 수정해야합니다. 불행히도, 나는 이것이 실제로 행해지는 것을 본 적이 없다.
Robert Smith

2
1980 년대 초반의 (프랑스) EDA 학습으로부터, 나는 더 강력한 통계적 구조보다 의도 된 결론에 대한 분석을 실제로 구부리는 것이 훨씬 쉽다는 인상을 받았습니다.
Xi'an

답변:


12

가설 을 생성하는 것으로 EDA의 역할을 엄격하게 본다면 명사수 오류는 적용되지 않습니다. 그러나 후속 확인 시험이 실제로 독립적이라는 것이 매우 중요합니다. 많은 연구자들이 풀링 된 분석, 메타 분석 및 베이지안 방법과 같은 것들과 "차이를 조정"하려고합니다. 이는 그러한 분석에 제시된 증거 중 적어도 일부에는 "임의의 총알 구멍 주위의 원"이 포함됨을 의미합니다.


5
정확하게. 너무 많은 탐색 적 데이터 분석의 문제점은 훈련 (탄알이 어디에 착륙했는지 식별)과 시험 (그 주위에 원 그리기)에 동일한 세트가 사용된다는 것입니다.
Michael K

11

이것은 탐색 적 데이터 분석에 대한 매우 부정적인 견해를 나타냅니다. 논쟁이 틀린 것은 아니지만 실제로는 "매우 중요한 도구를 잘못된 방식으로 사용하면 무엇이 잘못 될 수 있습니까?"

EDA 방법에서 조정되지 않은 p- 값을 수락하면 유형 I 오류율이 크게 부풀려집니다. 그러나 나는 Tukey가 이것을하는 사람에게는 행복하지 않을 것이라고 생각합니다. EDA의 요점은 데이터의 관계에 대한 결정적인 결론을 내리는 것이 아니라 후속 데이터에서 잠재적 인 새로운 관계를 찾는 것입니다.

더 큰 과학적 과정에서이 단계를 생략하는 것은 순수한 논리적 추론을 제외하고는 우리 데이터의 새로운 흥미로운 측면을 결코 찾을 수 없도록 과학을 본질적으로 약화시킵니다. 유전자 세트의 과발현이 세포의 생존에 어떻게 영향을 미치는지를 논리적으로 추론하려고 시도한 적이 있습니까? 힌트 : 쉬운 일이 아닙니다 (제 연구에서 생물 정보학 직원이 가장 좋아하는 농담 중 하나는 물리학자가 다른 유전자 상호 작용의 물리적 특성을 시뮬레이션하지 않는 이유는 무엇입니까? 유한 매개 변수 공간입니다).

개인적으로, 이것에 대한 혼란이 과학적 진보를 크게 둔화시킬 수 있다고 생각합니다. 나는 통계 학자들이 너무 많다는 것을 알고있다. 그들은 예비 데이터 에 대해 EDA 절차를 원하지 않는다고 주장 할 것이다.

결론적으로 EDA 방법을 사용하고이를 확인 데이터 분석 방법으로 취급하면 결과가 잘못 될 수 있습니다. 그러나 EDA를 올바르게 사용하지 않으면 결과가 거의 없습니다.


고맙습니다. 나는 어떤 종류의 탐색 적 분석에 관여하는 사람이 거의없는 것에 대해 너무 걱정하지 않을 것입니다. 나는 그 반대가 사실이라고 생각한다. 많은 사람들이이 탐색 작업을 수행하지만 설명에 따라 유형 I 오류를 방지하기 위해 적절한 예방 조치를 취하지 않을 것입니다. 그러나 EDA에 대해 부정적인 의견을 가진 사람들을 알고 있다는 것은 흥미 롭습니다. 예비 데이터를보고 싶지 않다면 언제 EDA (또는 EDA와 같은) 작업을하는 것이 편한가요?
Robert Smith

저의 경험은 비 통계 연구자들이 "여러 비교가 문제가있다"는 말을 듣는 데 익숙하다는 것입니다. 그래서 그들이 데이터를 가지고 올 때, 그들은 예비 데이터로도 다중 비교를 피하고 싶다고 말하고 싶어합니다. 물론, CDA 연구에서 다중 비교를 피하고 싶을 때 문제를보다 완벽하게 이해하고있을 것입니다.
Cliff AB

이해 했어. 더 이해가 되네요.
Robert Smith

5

사전에 가설을 갖지 않고 수행 된 탐색 적 프로세스는 가짜 가설을 생성하기 쉽습니다.

나는이 진술을 다듬고 조금 다르게 표현할 것이다. 데이터에 기초 하여 테스트 할 가설을 선택 하면 올바른 귀무 가설을 사용하지 않으면 테스트를 약화시킨다. 자연 기사의 핵심은 본질적으로 분석가가 탐색 중에 암시 적으로 수행하는 여러 비교를 모두 무시하는 것이 쉽다는 것입니다.

자연은 앤드류 겔먼 (Andrew Gelman)을 인용하지만 이 주제에 대한 에릭 로켄 (Eric Loken)과의 논문 은 언급하지 않았다 . 발췌 :

여기서 논의한 논문 중 일부와 관련하여 다중 비교에 대한 비판이 제기되었을 때 연구원들은 데이터 처리 및 데이터 분석에 대한 모든 세부 사항을 미리 선택했다고 응답하지 않았습니다. 오히려 그들은 그들이 본 특정 데이터에 대해 단 하나의 분석 만 선택했다고 주장한다 . 이 방어는 직관적으로 보일 수 있지만 여러 비교의 근본적인 잦은 관심사는 다루지 않습니다.

다른:

연구원들이 수백 가지의 서로 다른 비교를 수행하고 통계적으로 유의 한 것을 비교 한 것은 아닙니다. 그보다는 수행 할 내용을 염두에두고 다소 형식적인 아이디어로 시작하고 데이터를 고려하여 아이디어를 구체화합니다. 그들은 빨간색과 분홍색의 패턴을 보았고 색상을 결합했습니다.

간결하게 :

과학적 통계에서 통계적 가설로의 일대 다 매핑이 ​​있습니다.

그리고 하나 더 강조 :

우리가 논의한 모든 경우에, 출판 된 분석은 작업에 동기를 부여한 과학적 가설과 일치하는 이야기를 가지고 있지만 다른 데이터 패턴 (샘플 크기를 고려할 때 우연히 쉽게 발생할 수 있음)은 자연스럽게 연구 가설을 뒷받침하는 데 사용될 수있는 서로 다른 데이터 분석 (예 : 상호 작용이 아닌 주요 효과에 초점 또는 다른 데이터 하위 집합 선택). 우리가 다른 곳에서 작성한 것처럼 결과는 무작위 패턴을 생성하고 공개하는 일종의 기계입니다.

요컨대, EDA가 "가상 가설"로 이어지는 것은 아닙니다. 가설을 자극 한 동일한 데이터 세트로 가설을 테스트하면 잘못된 결론을 도출 할 수 있습니다.

이 장애를 극복하는 데 관심이 있다면 Gelman은 이러한 문제 중 많은 부분이 베이지안 프레임 워크에서 사라진다고 주장하는 또 다른 논문을 가지고 있으며 Loken 이 포함 된 논문이 백서 의 첫 번째 섹션에서 설명 된대로 "사전 공개 복제"를 참조 합니다 .


고맙습니다. 매우 흥미로운. 다중 비교에 대한 Gelman의 논문을 살펴볼 것입니다.
Robert Smith

3

물론 CDA가없는 EDA는 텍사스의 명사를 유인합니다.


고맙습니다. 예, 수정이 필요합니다. 나는 이것을 고려하는 것이 매우 일반적이라고 생각하지 않습니다.
Robert Smith

3

이미 큰 해답을 추가하기 위해 : 전체 CDA와 중간 값으로 EDA 결과를 받아들이는 중간 근거가 있습니다. 관심있는 기능 (또는 가설)이 발견되면 교차 검증 (CV) 또는 부트 스트랩 시뮬레이션을 수행하여 견고성을 느낄 수 있습니다. 결과가 몇 가지 주요 관측치에만 의존하는 경우 CV 또는 부트 스트랩은 많은 접기 (CV) 또는 부 스트랩 샘플이 관측 된 특징을 재현하지 못함을 보여줍니다.

이는 완벽한 방법은 아니지만 전체 CDA를 시작하기 전에 중간 검사를 수행하는 것이 좋습니다 (또는 초기 데이터 풀에서 "유효성 검사 세트"를 의도적으로 유지함).


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.