데이터 시각화 후 통계 테스트 수행-데이터 준설?


31

예제를 통해이 질문을 제안하겠습니다.

보스턴 주택 가격 데이터 세트와 같은 데이터 세트가 있고 연속적이고 범주 형 변수가 있다고 가정합니다. 여기에는 1에서 10까지의 "품질"변수와 판매 가격이 있습니다. 품질에 대한 컷오프를 (임의로) 생성하여 데이터를 "낮음", "중간"및 "고품질"주택으로 분리 할 수 ​​있습니다. 그런 다음 이러한 그룹을 사용하여 판매 가격의 히스토그램을 서로 비교할 수 있습니다. 이렇게 :

주택 품질 및 판매 가격

여기서 "낮음"은 이고 "높음"은 "품질"점수에서 입니다. 이제 세 그룹 각각에 대한 판매 가격이 분배되었습니다. 중형 및 고급 주택의 위치 중심에 차이가 있음이 분명합니다. 이제이 모든 작업을 수행 한 후 "흠. 위치 중심에 차이가있는 것 같습니다. 왜 수단에 대해 t- 검정을하지 않습니까?"라고 생각합니다. 그런 다음 평균에 차이가 없다는 귀무 가설을 올바르게 거부하는 것처럼 보이는 p- 값을 얻습니다.3>7

이제 데이터를 플롯 할 때 까지이 가설을 테스트 할 생각이 없다고 가정합니다 .

이 데이터가 준설입니까?

"내가 전에 집에 살았던 인간이기 때문에 더 높은 품질의 주택에 더 많은 비용이 들었다고 생각 합니다. 데이터를 플로팅 할 것입니다. 아 하! "티 테스트!"

당연히,이 가설을 시작부터 테스트하기 위해 데이터 세트를 수집 한 경우 데이터를 제거하지 않습니다. 그러나 종종 우리에게 주어진 데이터 세트로 작업해야하며 "패턴을 찾도록"지시받습니다. 이 모호한 작업을 염두에두고 데이터 준설을 어떻게 피합니까? 데이터 테스트를위한 홀드 아웃 세트를 작성 하시겠습니까? 시각화가 스누핑으로 간주되어 데이터에서 제안한 가설을 테스트 할 수 있습니까?

답변:


27

@ingolifs의 답변에 대한 반박에 동의하지 않거나 반대하는 말 : 예, 데이터 시각화는 필수적입니다. 그러나 분석을 결정하기 전에 시각화하면 Gelman과 Loken의 분기 경로 정원으로 연결 됩니다. 이는 부분적으로 의도를 통해 (GoFP는 일반적으로 의미가 있음) 데이터 분석 또는 p- 해킹과 동일하지 않으며 부분적으로는 둘 이상의 분석을 실행할 수 없기 때문입니다. 그러나 그것은 이다 스누핑의 형태 : 분석 데이터에 의존, 그것은 허위 또는 과신 결론으로 이어질 수 있기 때문이다.

당신은 어떤 방법으로 결정해야 목적으로 분석하여보고 (데이터에 그것의 OK를보고하기 전에 (예 : "높은 품질의 주택 가격이 더 높아야한다")와 (심지어 공식적으로 사전 등록을하거나)를 기록해입니다 예측 변수 반응 변수가 아니라 진보하지만 , 선험적 인 아이디어 가 없다면 어떤 변수가 예측 변수이고 어떤 변수가 반응인지 알 수 없습니다). 데이터가 다른 분석이나 추가 분석을 제안하는 경우, 처음에 무엇을했는지, 그리고 무엇을했는지 (그리고 왜)했는지 기록 할 수 있습니다.

실제로 순조 로운 탐색을 수행하는 경우 (예 : 선험적 가설 이없는 경우 데이터의 내용을보고자 함) :

  • 확인을 위해 샘플을 보관하는 것에 대한 당신의 생각은 좋습니다.
    • 내 세계에서 (거대한 데이터 세트로 작업하지 않음) 더 작은 샘플 크기로 인한 해상도 손실은 문제가 될 수 있습니다.
    • 데이터가 어떤 방식 으로든 (지리학 적, 시계열 등) 구조화 된 경우 홀드 아웃 샘플을 선택할 때 약간주의해야합니다. 데이터가 iid 인 것처럼 서브 샘플링하면 과신이 발생하고 (Engology and Evolution 2012의 Wenger and Olden Methods 참조 ), 제외 할 지리적 단위를 선택해야 할 수 있습니다 ( 예를 들어 Ecology and Evolution 2015의 DJ Harris Methods 참조 )
  • 당신은 순전히 탐구적임을 인정할 수 있습니다. 이 경우에는 p- 값을 완전히 피하는 것이 이상적이지만, 적어도 관객에게 GoFP에서 방황하고 있다고 말하면 엄청난 양의 소금으로 p- 값을 취할 수 있음을 알릴 수 있습니다.

"안전한 통계 관행"에 대해 제가 가장 좋아하는 것은 Harrell 's Regression Modeling Strategies (Springer)입니다. 그는 추론 대 예측 대 탐색에 대한 모범 사례를 엄격하지만 실용적으로 제시합니다.


4
잘 넣어! 앞으로 사람들 에게이 답변을 참조 할 것으로 기대됩니다.
Great38

내가 찾던 반응은 정확히 감사합니다. 이 답변을 답변으로 작성했습니다. 안전한 통계 관행을 가르치는 자료가 있습니까? 아마 당신이 게시 한 (우수한) 기사들보다 약간 더 넓은 범위 일 것입니다
Marcel

큰 대답 (+1)이지만 이것이 데이터 삭제와 다른 점에 동의하지 않습니다. 의도는 관련이 없습니다. 효과는 동일합니다.
복원 Monica Monica

실제로 다른 형태의 스누핑을 구분할 가치가 있다고 생각합니다. 준설은 (1) 복수의 암시 테스트보다는 복수의 명시 테스트와 (2) p <0.05 (또는 무엇이든)가 달성 될 때까지 조건부 / 지속적인 테스트를 포함하기 때문에 더욱 심각합니다 . 질적 효과는 확실히 동일합니다.
벤 볼커

11

데이터 시각화는 분석에 없어서는 안될 부분이며 익숙하지 않은 데이터 세트로 가장 먼저해야 할 일 중 하나입니다. 데이터를 빠르게 살펴보면 다음 단계를 알 수 있습니다. 실제로, 평균이 다른 그래프를 보면 상당히 분명해야하며,이를 확인하기 위해 왜 T- 검정이 필요한지 잘 모르겠습니다. 필요합니다.

빠른 위키 백과에서 알 수있는 한 데이터 준설은 데이터를 특정 수준으로 맞추기위한 의도적 인 프로세스입니다. 데이터 세트를 임의의 난수와 비교하지만 유리한 수의 집합을 얻거나 많은 다른 형태의 회귀를 시도하고 여부에 관계없이 가 가장 좋은 것을 선택할 때까지 난수를 재생성 합니다. 가정이 적절하다. 데이터 준설은 우연히 쉽게 할 수있는 것으로 보이지 않습니다.R2

나는 여기에 더 깊은 질문이 있다고 생각합니다. 과학적인 방법으로 데이터를 다룰 때 선과 같은 중립을 유지하고 편견을 피하는 방법은 무엇입니까? 대답은 그렇지 않습니다. 또는 그럴 필요가 없습니다. 직감과 가설을 형성하고 데이터가 의미하는 바에 대한 정신적 서술을 구축하는 것은 모두 자연스럽고 수용 가능하며, 귀하가 그렇게하고 있다는 사실을 알고 있으며 충돌하는 데이터에 직면 할 때 이러한 모든 가설을 정신적으로 재고 할 준비가되어 있습니다.


7
이 특정한 경우 테스트를 실행하기 전에 데이터를 시각화하는 것은 무해 할 수 있습니다. 그러나 다음으로 또 다른 차원을 시각화하고 또 다른 차원을 시각화하고 산점도를 살펴보면 곧 공식적인 테스트와 서술이 자연스럽게 나오도록 "분명히"보이는 것을 발견 할 것입니다. 예, 데이터 준설 은 분명히 우연히 쉽게 할 수있는 일입니다. Gelman의 "정원 경로의 정원"을 참조하십시오 .
S. Kolassa-복원 Monica Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.