다음 발췌문은 Schwager의 헤지 펀드 마켓 위저드 (2012 년 5 월)에서 지속적으로 성공적인 헤지 펀드 관리자 인 Jaffray Woodriff와의 인터뷰 에서 발췌 한 것입니다 .
질문 : "데이터 마이닝에서 사람들이 만드는 최악의 오류는 무엇입니까?":
많은 사람들이 훈련에 샘플 데이터를 사용하고 테스트에 샘플 외부 데이터를 사용하기 때문에 괜찮다고 생각합니다. 그런 다음 표본 내 데이터에서 수행 한 방식에 따라 모델을 정렬하고 표본 외 데이터에서 테스트 할 최상의 모델을 선택합니다. 인간 경향은 표본 외 데이터에서 계속 잘 수행되는 모델을 취하고 거래를 위해 해당 모델을 선택하는 것입니다. 이러한 유형의 프로세스는 샘플 외부 기간에 가장 잘 수행 된 모델을 선택하기 때문에 샘플 외부 데이터를 훈련 데이터의 일부로 변환합니다. 사람들이 만드는 가장 일반적인 오류 중 하나이며 일반적으로 적용되는 데이터 마이닝이 끔찍한 결과를 가져 오는 이유 중 하나입니다.
면접관은 "무엇을해야합니까?"라고 묻습니다.
평균적으로 표본 외의 모든 모델이 계속 잘 작동하는 패턴을 찾을 수 있습니다. 표본 외 모델의 평균이 표본 내 점수의 상당한 백분율 인 경우 잘 수행하고 있음을 알고 있습니다. 일반적으로, 샘플 외부 결과가 샘플 내 50 % 이상인 경우 실제로 어딘가에 있습니다. SAS와 IBM이 훌륭한 예측 모델링 소프트웨어를 구축했다면 QIM의 비즈니스 모델은 결코 효과가 없었을 것입니다.
내 질문
이것은 어떤 의미가 있습니까? 그는 무엇을 의미합니까? 단서가 있거나 제안 된 방법의 이름과 참조가 있습니까? 아니면 아무도 모르는 성배를 찾았습니까? 그는이 인터뷰에서 그의 방법이 과학에 혁명을 일으킬 수 있다고 말했다.