저는 교수가 우리에게 진정한 회귀 모델을 만들고, 데이터 샘플을 시뮬레이션하고, 수업에서 배운 몇 가지 기술을 사용하여 실제 회귀 모델을 찾으려고하는 숙제를 과제 중입니다. 마찬가지로 우리는 그가받은 데이터 세트와 동일한 작업을 수행해야합니다.
그는 과거의 모든 시도에서 그를 시도하고 속이려고 아주 정확한 모델을 만들 수 있다고 말했다. 미친 모델을 만드는 몇몇 학생들이 있었지만, 그는 단지 더 간단한 모델을 만들 수 있었을 것입니다.
그가 찾을 까다로운 모델을 개발하려면 어떻게해야합니까? 4 차 2 차 항, 3 차 관측치 및 대규모 분산을 수행하여 매우 저렴하고 싶지 않습니까? 작은 모델이있는 겉보기에 무해한 데이터 세트를 어떻게 만들 수 있습니까?
그는 단순히 따라야 할 3 가지 규칙이 있습니다.
데이터 세트에는 "Y", "X1", ..., "X20"으로 레이블이 지정된 하나의 "Y"변수와 20 개의 "X"변수가 있어야합니다.
반응 변수 는 을 만족하는 선형 회귀 모델에서 여기서 및 입니다.
를 생성하는 데 사용 된 모든 변수는 데이터 세트에 포함됩니다.
20 개의 X 변수가 모두 실제 모델에 있어야하는 것은 아닙니다.
나는 같은 것을 사용하는 생각 파마 - 프랑스어 3 요소 모델 과 그를 주식 데이터 (SPX 및 AAPL)로 시작하고 조금 더를 obsfucate하기 위해 연속 복리 수익률에 해당 변수를 변환 할 필요. 그러나 그것은 첫 번째 관찰에서 결 측값을 남기고 시계열입니다 (우리는 아직 수업에서 논의하지 않았습니다).
이것이 이와 같은 것을 게시하기에 적절한 장소인지 확실하지 않습니다. 좋은 토론을 할 수있을 것 같은 느낌이 들었습니다.
편집 : 특히 "사전 구축 된"모델을 요구하지 않습니다. 누군가가 이것에 대해 갈 수있게하는 통계의 주제 / 도구에 대해 더 궁금합니다.