새로운 혁신적인 데이터 마이닝 방법?


21

다음 발췌문은 Schwager의 헤지 펀드 마켓 위저드 (2012 년 5 월)에서 지속적으로 성공적인 헤지 펀드 관리자 인 Jaffray Woodriff와의 인터뷰 에서 발췌 한 것입니다 .

질문 : "데이터 마이닝에서 사람들이 만드는 최악의 오류는 무엇입니까?":

많은 사람들이 훈련에 샘플 데이터를 사용하고 테스트에 샘플 외부 데이터를 사용하기 때문에 괜찮다고 생각합니다. 그런 다음 표본 내 데이터에서 수행 한 방식에 따라 모델을 정렬하고 표본 외 데이터에서 테스트 할 최상의 모델을 선택합니다. 인간 경향은 표본 외 데이터에서 계속 잘 수행되는 모델을 취하고 거래를 위해 해당 모델을 선택하는 것입니다. 이러한 유형의 프로세스는 샘플 외부 기간에 가장 잘 수행 된 모델을 선택하기 때문에 샘플 외부 데이터를 훈련 데이터의 일부로 변환합니다. 사람들이 만드는 가장 일반적인 오류 중 하나이며 일반적으로 적용되는 데이터 마이닝이 끔찍한 결과를 가져 오는 이유 중 하나입니다.

면접관은 "무엇을해야합니까?"라고 묻습니다.

평균적으로 표본 외의 모든 모델이 계속 잘 작동하는 패턴을 찾을 수 있습니다. 표본 외 모델의 평균이 표본 내 점수의 상당한 백분율 인 경우 잘 수행하고 있음을 알고 있습니다. 일반적으로, 샘플 외부 결과가 샘플 내 50 % 이상인 경우 실제로 어딘가에 있습니다. SAS와 IBM이 훌륭한 예측 모델링 소프트웨어를 구축했다면 QIM의 비즈니스 모델은 결코 효과가 없었을 것입니다.


내 질문
이것은 어떤 의미가 있습니까? 그는 무엇을 의미합니까? 단서가 있거나 제안 된 방법의 이름과 참조가 있습니까? 아니면 아무도 모르는 성배를 찾았습니까? 그는이 인터뷰에서 그의 방법이 과학에 혁명을 일으킬 수 있다고 말했다.


4
그는 단순히 단일 분할 샘플 (트레인 및 유효성 검사)의 오류를 논의하고 중첩 된 교차 유효성 검사 프로세스를 옹호하지 않습니까?
B_Miner

12
나는 "과학"에 혁명을 가져다 줄 깊은 통찰력을 요구하는 사람에 대해 조심할 것입니다.
추기경

2
헤지 펀드 매니저들은 "더 나은 모델링 접근법"을 주장하고 경쟁에 대해 약간의 쓰레기 이야기를하고 있습니까? 거기에 새로운 것은 없습니다.
zbicyclist

2
와우,이 질문은 어떻게 많은 찬사를 받고 있습니까? 샘플 외부 예측은 입문 기계 학습 과정의 첫날에 논의 된 문제입니다. 표본 외 예측을 올바르게 해결하지는 않지만 예측 작업에 대한 단서조차없는 사람은 없습니다.
user4733

트레이딩은 물론 타임-시 레이스 문제이며, (알려진 데이터를 사용하는) 교차 검증 은 시간이 지남에 따라 구조가 바뀌는 문제를 해결할 수 없다고 생각합니다. 그래서 성배가 아닙니다. 그러나 그가 실제로하고있는 것은 추론 될 수 없다.
kjetil b halvorsen 2012 년

답변:


6

이것은 어떤 의미가 있습니까? 부분적으로

그는 무엇을 의미합니까? 물어보세요

단서가 있거나 제안 된 방법의 이름과 참조가 있습니까?

교차 검증. http://en.wikipedia.org/wiki/Cross-validation_ (통계)

아니면 아무도 모르는 성배를 찾았습니까? 아니.

그는이 인터뷰에서 자신의 방법이 과학에 혁명을 일으킬 수 있다고 말했다 .


2
글쎄, 적어도 그는 진정한 문제를 지적하고 있습니다 ...

8

다른 "거의"응답이 있는지 확실하지 않지만 여기에 내 대답이 있습니다.

교차 검증 은 결코 "새로운"것이 아닙니다. 또한 분석 솔루션이 발견되면 교차 검증 이 사용되지 않습니다. 예를 들어 베타를 추정하기 위해 교차 검증을 사용하지 않고 OLS 또는 IRLS 를 사용합니다 또는 다른 "최적의"솔루션을 사용합니다.

내가 인용에서 눈에 띄게 틈새로 보는 것은 실제로 "최상의"모델을 검사하여 의미가 있는지 확인한다는 개념에 대한 언급이 아닙니다. 일반적으로 좋은 모델은 일부 직관적 인 수준에서 의미가 있습니다. CV 는 모든 예측 문제에 대한 총알 이라고 주장하는 것 같습니다 . 더 높은 수준의 모델 구조에서 설정하는 이야기도 없습니다. SVM , 회귀 트리 , 부스팅 , 배깅 , OLS , GLMS를 사용합니까? , GLMNS를 사용합니까?. 변수를 정규화합니까? 그렇다면 어떻게? 변수를 그룹화합니까? 희소성에 견고성을 원합니까? 특이 치가 있습니까? 데이터를 전체 또는 조각으로 모델링해야합니까? CV를 기반으로 결정하기에는 너무 많은 접근 방식이 있습니다 .

또 다른 중요한 측면은 어떤 컴퓨터 시스템을 사용할 수 있습니까? 데이터는 어떻게 저장되고 처리됩니까? 누락이 있습니까?이를 어떻게 처리합니까?

그리고 여기 큰 것이 있습니다 : 좋은 예측을하기에 충분한 데이터가 있습니까? 데이터 세트에없는 알려진 변수가 있습니까? 우리의 데이터가 우리가 예측하려는 것을 대표합니까?

KK2 폴드 데이터를 ?

또한 개인적으로 컴퓨터 집약적 이력서REML 또는 Variational Bayes 와 같은 저렴한 방법 사이의 트레이드 오프 비교를 보지 못했습니다 . 추가 컴퓨팅 시간을 대신하여 무엇을 얻습니까? 또한 CV 가 보다 "small 더 유용한 것 같습니다npnpnp


9
좋은 rant. 당신이 가끔 모자를 사용한다면 훨씬 쉽게 읽을 수 있었을 것입니다 ...
MånsT

4

데이터 마이닝의 일반적인 오류에 대한 그의 설명은 합리적입니다. 그가하는 일에 대한 그의 설명은 말이되지 않습니다. "일반적으로 말하면 표본 외 결과가 표본 내 50 % 이상인 경우 실제로 어딘가에 도달하고 있는가?" 그렇다면 나쁜 SAS와 IBM은 그를 똑똑하게 보이게하지 않습니다. 사람들은 통계를 이해하지 않고 시장에서 성공할 수 있으며 성공의 일부는 행운입니다. 성공적인 사업가를 전문가의 예측처럼 취급하는 것은 잘못입니다.


1
인용문의 의미가 명확하지 않습니까? 모델이 어떻게 사용되는지에 따라, 그가 말한 것은 많은 의미가 있습니다. 예를 들어, 넷플릭스 문제의 주요 "탈취"는 해석 가능성이 거의없는 한 "모델 블렌딩"의 힘으로 보입니다. 이 경우 고려중인 모델의 샘플 성능 중 일부 "평균"이 완전히 관련 될 수 있습니다.
추기경

@cardinal :이 매우 흥미로운 생각들로부터 답을 얻을 수 있습니까? 좋을 것입니다, 감사합니다!
vonjd

2
@cardinal 어쩌면 당신에게 분명하지만 "샘플이 아닌 결과가 샘플의 50 % 이상인 경우 실제로 어딘가에 가고있다"는 문장을 설명하십시오. 모델 전체에 대한 앰블 징의 평균이 효과적 일 수 있다고 말하는 경우 물론 이에 동의 할 수 있습니다. 부스팅은 많은 응용 프로그램에서 잘 작동하는 것으로 입증되었습니다. 그러나 나는 그것이 Woodriff의 발언에서 어디에서 나오는지 알 수 없습니다.
Michael R. Chernick

2
Woodriff 씨의 주장에 대한 세부 사항은 확실치 않지만 발췌를 바탕으로 한 이것에 대한 나의 해석은 다음과 같은 결과에 영향을 미칩니다. "관련성이 있다고 생각합니다.]는 모델을 피팅 한 후 샘플 내 성능의 절반 이상에 해당하며, 이는 내 응용 분야에 의미가 있습니다." 저는 수학자 / 통계 학자이므로주의해야합니다. 내가 외부의 인정을 구하는 헤지 펀드 매니저라면, 나는 내 말에 더 거대하고 절대적일지도 모른다.
추기경

1
@cardinal 따라서 성능 측정으로 오류율을 취한 다음, 샘플 오류율이 5 %이고 샘플 오류율이 10 %이면 방법이 양호하다고 Woodriff를 해석합니다. 샘플 성능에서 벗어나 결정하는 이유는 무엇입니까? 샘플 성능에서 샘플 성능에 대한 비율이 샘플 성능에서 얼마나 신뢰할 수 / 신뢰할 수 없는지에 대해 알려주고 있지만 분류기 성능 평가에 들어가는 것을 보지 못합니다. 나는 여전히 모델 블렌딩이 그의 말에 들어가는 것을 보지 못했다.
Michael R. Chernick

4

당신은 찾을 수 있습니다 평균적으로 표본 외의 모든 모델이 계속 잘 작동 패턴을 .

여기서 단어 패턴 에 대한 나의 이해는 다른 시장 상황을 의미한다는 것입니다. 순진한 접근 방식은 사용 가능한 모든 데이터를 분석하고 (우리 모두는 더 많은 데이터가 더 좋다는 것을 알고 있음) 최상의 곡선 피팅 모델을 훈련 한 다음 모든 데이터에 대해 실행하고 항상 거래합니다.

보다 성공적인 헤지 펀드 매니저와 알고리즘 트레이더는 시장 지식을 사용합니다. 구체적인 예로서, 거래 세션의 전반 시간은보다 변동적일 수있다. 따라서 모든 데이터를 기준으로 첫 30 분 동안, 모든 데이터에서 모델을 시도하지만 첫 30 분은 제외합니다. 그들은 두 모델이 상반기에 잘 작동하지만 8 개는 돈을 잃는다는 것을 알게 될 것입니다. 처음 30 분을 배제 할 때 모델 중 7 개가 돈을 벌고 3 개는 돈을 잃습니다.

그러나이 두 가지 승리 모델을 가져 와서 상반기 거래에 사용하는 것보다는 알고리즘 거래에있어 좋지 않은 시간이며 전혀 거래하지 않을 것이라고합니다. 나머지 날에는 7 가지 모델을 사용합니다. 즉, 당시 기계 학습으로 시장을 예측하기가 더 쉬워서 해당 모델이 앞으로 더 안정적 일 가능성이 높습니다. (시간이 유일한 패턴은 아니며 다른 뉴스는 일반적으로 뉴스 이벤트와 관련이 있습니다. 예를 들어, 주요 경제 수치가 발표되기 직전에 시장이 더욱 변동 적입니다.)

그것이 그가 말하는 것에 대한 나의 해석입니다. 완전히 틀릴 수도 있지만, 누군가에게 생각하기에 여전히 유용한 음식이기를 바랍니다.


2

재무 전문가로서 나는 그 진술이 모호성을 나타내지 않는다는 충분한 맥락을 알고 있습니다. 재무 시계열은 종종 체제 변경, 구조적 중단 및 개념 변동으로 특징 지워 지므로 다른 산업에서 실시되는 교차 검증은 재무 응용 프로그램에서 성공하지 못합니다. 두 번째 부분에서 그는 재무 지표, MSE 또는 기타 손실 함수가 아닌 Sharpe 비율에 대한 투자 수익 (분자 반환)을 나타냅니다. 만약 샘플 전략이 10 %의 수익을 낳으면 실제 거래에서는 5 % 만 현실적으로 만들 수 있습니다. "혁명적 인"부분은 따옴표가 아닌 그의 독점적 분석 접근 방식에 관한 것입니다.


유일한 문제 : 재무 지표를 매개 변수 최적화 도구로 사용하는 작업, 즉 최대 가능성을 사용하지 않고 해당 메트릭을 최대화하여 매개 변수를 직접 최적화하는 작업에 대해 알고 있습니까?
kjetil b halvorsen 2012 년

@ kbh 그것은 내 재무 통계가 아닙니다. 예리한 비율을 최적화하는 것이 매우 일반적입니다. 내 머리 ssrn.com/abstract=962461 의 상단에있는 한 가지 예 -정확한 통계 모델은 개발되지 않았지만 (매우 일반적인 용어로) 수익을 극대화하고 위험을 최소화하기 위해 만들어진 거래 규칙.
onlyvix.blogspot.com 1
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.