예제를 통해이 질문을 제안하겠습니다.
보스턴 주택 가격 데이터 세트와 같은 데이터 세트가 있고 연속적이고 범주 형 변수가 있다고 가정합니다. 여기에는 1에서 10까지의 "품질"변수와 판매 가격이 있습니다. 품질에 대한 컷오프를 (임의로) 생성하여 데이터를 "낮음", "중간"및 "고품질"주택으로 분리 할 수 있습니다. 그런 다음 이러한 그룹을 사용하여 판매 가격의 히스토그램을 서로 비교할 수 있습니다. 이렇게 :
여기서 "낮음"은 이고 "높음"은 "품질"점수에서 입니다. 이제 세 그룹 각각에 대한 판매 가격이 분배되었습니다. 중형 및 고급 주택의 위치 중심에 차이가 있음이 분명합니다. 이제이 모든 작업을 수행 한 후 "흠. 위치 중심에 차이가있는 것 같습니다. 왜 수단에 대해 t- 검정을하지 않습니까?"라고 생각합니다. 그런 다음 평균에 차이가 없다는 귀무 가설을 올바르게 거부하는 것처럼 보이는 p- 값을 얻습니다.
이제 데이터를 플롯 할 때 까지이 가설을 테스트 할 생각이 없다고 가정합니다 .
이 데이터가 준설입니까?
"내가 전에 집에 살았던 인간이기 때문에 더 높은 품질의 주택에 더 많은 비용이 들었다고 생각 합니다. 데이터를 플로팅 할 것입니다. 아 하! "티 테스트!"
당연히,이 가설을 시작부터 테스트하기 위해 데이터 세트를 수집 한 경우 데이터를 제거하지 않습니다. 그러나 종종 우리에게 주어진 데이터 세트로 작업해야하며 "패턴을 찾도록"지시받습니다. 이 모호한 작업을 염두에두고 데이터 준설을 어떻게 피합니까? 데이터 테스트를위한 홀드 아웃 세트를 작성 하시겠습니까? 시각화가 스누핑으로 간주되어 데이터에서 제안한 가설을 테스트 할 수 있습니까?