나는 종종 시퀀스 인 예측 변수가있는 모델 (분류 또는 회귀)을 작성하고 있으며 모델에 예측 변수로 포함시킬 수있는 최선의 방법으로 변수를 요약하기위한 기술 권장 사항을 찾으려고 노력했습니다.
구체적인 예로, 고객이 향후 90 일 내에 회사를 떠날 것인지 예측하기 위해 모델을 구축한다고 가정합니다 (t와 t + 90 사이, 따라서 이진 결과). 사용 가능한 예측 변수 중 하나는 기간 t_0에서 t-1까지의 고객 재무 잔액 수준입니다. 아마도 이것은 이전 12 개월 동안의 월별 관측치 (예 : 12 회 측정)를 나타냅니다.
이 시리즈에서 기능을 구성하는 방법을 찾고 있습니다. 나는 평균, 높음, 낮음, 표준 개발과 같은 각 고객 시리즈의 설명을 사용하여 추세를 얻기 위해 OLS 회귀에 적합합니다. 기능을 계산하는 다른 방법이 있습니까? 변화 나 변동성의 다른 척도?
더하다:
아래 응답에서 언급했듯이 DTW (Dynamic Time Warping)를 사용한 다음 결과 거리 매트릭스에서 계층 적 클러스터링을 고려하여 클러스터를 생성 한 다음 클러스터 멤버 자격을 기능으로 사용하는 것도 고려했습니다. 스코어링 테스트 데이터는 새로운 사례와 클러스터 중심에서 DTW가 수행 된 프로세스를 따라야합니다. 새로운 데이터 계열을 가장 가까운 중심에 일치시킵니다.