데이터 마이너를위한 실험 설계 과정


11

저는 데이터 마이닝에서 일하는 컴퓨터 과학자입니다. 컴퓨터 과학자들이 체계적인 실험 설계 및 평가를 수행하는 데 상당히 열악하다고 말하는 것은 비밀이 아닙니다. p- 값 및 신뢰도 추정의 사용은 고급으로 간주됩니다.

좋은 실험 디자인에 대해 컴퓨터 과학자들에게 가르 칠 수있는 좋은 코스 / 자료가 있는지 알고 싶습니다. 이를보다 구체적으로하기 위해 다음 정보를 추가하겠습니다.

  • 이 과정은 확률에 대한 합리적인 이해를 가지고 있지만 통계에 대한 배경 지식이없는 대학원생을 대상으로해야합니다.
  • 이 과정은 "제어되지 않은 부 자연스러운 설정"의 실험 설계에 중점을 두어야합니다. 즉, 근본적인 물리적 근거 나 데이터 수집 프로세스를 제어 할 수있는 방법이 없습니다 (인간 대상과 마찬가지로). 물론 좋은 과정은 기본 사항에 중점을 두지 만이 시나리오를 중요한 방식으로 처리해야합니다.
  • 계산 요소는 보너스이지만 필수는 아닙니다. 우리는 많은 양의 데이터를 처리하지만 필요한 경우 계산 문제를 직접 파악할 수 있습니다.

1
당신이 묘사 한 실험의 모든 조건들은 A / B-Tests ... 우연의 일치를 떠올리게합니다. :)
steffen

답변:


5

[Noah Smith] [1]와 [David Smith] [2]는 언젠가 JHU에서 비슷한 동기로 코스를 제공했습니다.

개요:

  • 강의 1 : 소개, 통계 검토, 가설 검정, 샘플링
  • 강의 2 : 관심 통계 : 평균, 분위수, 분산
  • 강의 3–4 : 런타임 및“공간”실험
  • 강의 5 : 탐색 적 데이터 분석
  • 강의 6 : 파라 메트릭 모델링, 회귀 및 분류
  • 강의 7 : 통계적 디버깅 및 프로파일 링
  • 강의 8 : 요약 및 검토

자세한 내용은 컴퓨터 과학의 실증 연구 방법 (600.408) http://www.cs.jhu.edu/~nasmith/erm/을 참조하십시오.


4

코스 대신 두 권의 책을 자제 할 수 있습니다

첫 번째는 생물 정보학에 대한 응용 프로그램이고 두 번째는 모든 학문에 대한 응용 프로그램입니다.



3

좋은 질문. 나는 대답을보고 싶어한다.

통계적 관점에서 두 가지 문제를 해결해야합니다. 대부분의 통계 및 통계 설계는 작은 표본 통계에 대해 논의하며 엔지니어가 사용하는 대부분의 방법론은 "현대"통계가 아닙니다.

데이터 마이닝 / 탐사에서 좋은 학교 교육을 넘어서는 첫 번째 문제에 대한 즉각적인 제안은 없으며 인구 통계 (또는 큰 표본) 통계에 직면 할 때 통계적으로 다른 의미를 갖습니다.

그러나 학생들에게 통계를 소개하는 데 관심이있는 두 권의 책은 Rand Wilcox (심리학자)의 것입니다.

RR 윌콕스 (2012). 강력한 추정 및 가설 테스트 소개, 3 차 개정판 학술 출판사.

RR Wilcox (2010). 현대 통계 방법의 기초 : 실질적으로 힘과 정확도 향상, Springer, 2nd Ed.


2
첫 번째 문제는 연구를위한 것이며 아직 "모범 사례"가 없을 수도 있습니다. 다중 가설 문제의 기본 테스트 및 드릴링에 대한 확실한 소개가 가장 좋은 시작일 수 있습니다.
Suresh Venkatasubramanian 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.