백 테스트를 수행하려는 성능의 예측 모델이 있습니다 (예 : 데이터 세트를 가져 와서 이전 시점으로 "되감기"하고 모델의 예상 성능을 확인하십시오).
문제는 내 모델 중 일부가 대화식 프로세스를 통해 빌드되었다는 것입니다. 예를 들어 Frank Harrell의 Regression Modeling Strategies 의 조언에 따라 한 모델에서 제한된 입방 스플라인을 사용하여 피처와 응답 간의 비선형 연관을 처리했습니다. 나는 도메인 지식과 일 변량 연관 강도의 조합을 기반으로 각 스플라인의 자유도를 할당했습니다. 그러나 모델을 허용하려는 자유도는 데이터 세트의 크기에 따라 달라지며 백 테스팅시 크게 달라집니다. 모델을 다시 테스트 할 때마다 자유도를 개별적으로 수동으로 선택하지 않으려면 다른 옵션은 무엇입니까?
다른 예를 들어, 저는 현재 레버리지가 높은 지점을 찾아 이상치 탐지를 위해 노력하고 있습니다. 손으로이 작업을 수행하는 것이 행복하다면, 높은 수준의 각 데이터 지점을보고 데이터가 깨끗한 지 확인하고 데이터를 필터링하거나 손으로 정리합니다. 그러나 이것은 많은 도메인 지식에 의존하므로 프로세스를 자동화하는 방법을 모르겠습니다.
나는 (a) 모델 구축 프로세스의 대화식 부분을 자동화하는 일반적인 문제 또는 (b)이 두 가지 경우에 대한 구체적인 조언 모두에 대한 조언과 솔루션을 높이 평가할 것이다. 감사!