소 표본 연구에서 탐색 적 데이터 분석 및 데이터 준설에 대처하는 방법은 무엇입니까?


25

탐색 적 데이터 분석 (EDA)은 종종 초기 가설 세트에 속하지 않는 다른 "트랙"을 탐색하게한다. 나는 제한된 표본 크기와 다른 설문지 (사회 인구 통계학 데이터, 신경 심리학 또는 의료 규모-정신 또는 신체 기능, 우울증 / 불안 수준, 증상 검사 목록)를 통해 수집 된 많은 데이터를 가진 연구의 경우 그러한 상황에 직면합니다. ). EDA는 추가적인 질문 / 가설로 해석되는 예기치 않은 관계 ( "예기치 않은"관계가 초기 분석 계획에 포함되지 않았 음을 의미 함)를 강조하는 데 도움이됩니다.

과적 합의 경우와 마찬가지로 데이터 준설 또는 스누핑 은 일반화되지 않은 결과를 초래합니다. 그러나, 많은 데이터가 이용 가능할 때, 연구 자나 의사는 제한된 가설을 가정하는 것이 매우 어렵다.

소 표본 연구의 경우 EDA를 설명하는 데 도움이 될 수있는 잘 알려진 방법, 권장 사항 또는 경험 법칙이 있는지 알고 싶습니다.


샘플 크기가 왜 중요한지 잘 모르겠습니다. 왜 작은 n의 경우와 큰 n의 경우가 다르다고 생각하는지에 대한 더 구체적인 추론을 제공 할 수 있습니까?
Andy W

2
@Andy 따라서 매우 제한된 샘플 크기 ( )를 가진 홀드 아웃 샘플 및 / 또는 클래스 불균형을 고려하는 것이 매우 어려워지기 때문에 일반적으로 CV를 적용 할 때 더 큰 분류 오류율이 산출됩니다. 이변 량 분포를 연구 할 때 일부 개인은 특이 치로 간주 될 수 있습니다. 자체 측정 오류가있는 계측기에서 수집 한 측정 값의 신뢰성은 떨어집니다 (small , large ). 어떤 의미에서, 인공물과 예기치 않은 관계를 풀기 어려운 경우가 있습니다. 13<<25σ
chl

나는 당신이 관심있는 것이 전적으로 분류라면 그 정서를 이해할 수 있다고 생각합니다. 인과 적 추론을 위해 데이터 스누핑 문제는 동일하다고 생각합니다 (즉, 관계를 식별하는 힘이 증가해도 문제가 해결되지 않습니다). 이 의견을 답으로 정리하려고 노력할 것입니다. 그 동안 메인 포럼에서 인과 추론에 대한 교차 검증 사용에 대해 질문 할 수 있습니다.
Andy W

1
@ 앤디 감사합니다. 바라건대, 귀하의 질문은 많은 흥미로운 답변을 받게 될 것입니다.
chl

답변:


10

EDA에서 예상치 못한 결과였으며 선험적 가설을 기반으로 한 초기 분석 계획의 일부가 아니라는 결과를보고 할 때 가장 중요한 것은 정직하다고 생각합니다 . 일부 사람들은 이러한 결과에 '가설 생성'이라는 라벨을 붙이기를 좋아합니다. 예를 들어 Google Scholar에서이 문구를 검색 하면 첫 번째로 적중 한 내용 초록의 결론 섹션에 다음과 같습니다.

이것이 "탐사"분석 이었으므로이 효과는 다른 시험에서 가설을 생성하고 전향 적으로 평가해야합니다 ...

비록 이것이 사후 하위 그룹 분석 이었음에도 불구하고, 문제를 악화시키는 관측 연구가 아닌 무작위 대조 시험에 의한 것이 었습니다. 필립 콜 (Philip Cole)은 관찰 적 ( '역학적') 연구가 의도적으로 도발적이지만 재미있는 논평에서 가설을 생성 할 수 있다는 생각에 경멸을 부었습니다.

P 콜. 가설 생성 기계. 역학 1993; 4 : 271-273.


+1 링크 및 태그 변경에 감사드립니다. 이 방향으로 살펴 보겠습니다.
chl

13

관심있는 독자를위한 데이터 준설임상 연구에 대한 참고 자료를 삭제했습니다 . 이것은 @onestop 의 훌륭한 답변 을 확장하기위한 것 입니다. 여러 개의 엔드 포인트와 연구에 도전 현재와 길이에 대한 로스의 주장 이후 논란이 토론 (계속하지만, 단지 여러 비교 또는 디자인 문제에 초점을 맞춘 기사를 피하기 위해 노력 쓸모 조정 , 역학 1990, 1 : 43 ~ 46; 또는 Feise의 리뷰를 참조 BMC를 의료 연구 방법론 2002, 2 : 8).

내 이해는 비록 탐색 적 데이터 분석에 대해 이야기했지만 내 질문은 일반적으로 가설 기반 테스트와 병행하여 잠재적 인 함정과 함께 데이터 마이닝의 사용을 다루는 것입니다.

  1. Koh, HC 및 Tan, G (2005). 헬스 케어의 데이터 마이닝 애플리케이션 . 의료 정보 저널 , 19 (2), 64-72.
  2. JPA 이오 아니 디스 (2005). 대부분의 출판 된 연구 결과가 거짓 인 이유 . PLoS Medicine , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH 및 Burnham, KP (2001). 데이터 분석 결과 제시를위한 제안 . 야생 동물 관리 저널 , 65 (3), 373-378. 이것은 초기 가설을 넘어 데이터 중심의 탐색 / 모델링을 인정해야한다는 사실에 대한 @onestop의 의견을 반영합니다.
  4. Michels, KB 및 Rosner, BA (1996). 데이터 트롤링 : 낚시하기 또는 낚시하기 . 랜싯 , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ 및 Keech, AC (2004). 임상 실험에서 다중 분석 : 건전한 과학 또는 데이터 준설? . 호주의 의학 저널 , 181 (8), 452-454.
  6. Smith, GD and Ebrahim, S (2002). 데이터 준설, 편견 또는 혼란 . BMJ , 325, 1437-1438.
  7. Afshartous, D and Wolf, M (2007). 다단계 및 혼합 효과 모델 '스누핑 데이터'를 방지 . 왕립 통계 학회지 A , 170 (4), 1035–1059
  8. Anderson, DR, Burnham, KP, Gould, WR 및 Cherry, S (2001). 실제로 가짜 효과를 찾는 것에 대한 우려 . Widlife Society Bulletin , 29 (1), 311-316.

이것은 지금까지 읽은 내용을 간단히 요약 한 것입니다. 분명히, 나는 내 자신의 대답을 받아들이지 않을 것이다 . 다른 생각은 대단히 감사하겠습니다.
chl

내 답변 chi를 수락 해 주셔서 감사합니다. 귀하의 참조 목록이 훨씬 더 좋고 최근입니다. 하드 드라이브에
넣었을
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.