휴대 전화 계정의 처음 21 일 동안 입력이 시계열 음성 사용 데이터 (초) 인 시계열 분류 문제를 해결하고 있습니다. 해당 대상 변수는 해당 계정이 35-45 일 범위에서 취소되었는지 여부입니다. 따라서 이진 분류 문제입니다.
지금까지 시도한 모든 방법 (다양한 정도)에서 매우 나쁜 결과를 얻고 있습니다. 먼저 k-NN 분류 (다양한 수정)를 시도했는데 결과가 매우 나빴습니다. 이로 인해 평균, 분산, 최대, 최소, 총 0 일, 총 후행 0 일, 전반 평균과 후반 평균의 차이 등의 시계열에서 기능을 추출 할 수있게되었으며 가장 예측 가능한 기능은 전체 인 것으로 보입니다. 제로 일 및 총 후행 제로 (여러 분류 알고리즘 사용). 이것은 최고 성능을 보였지만 성능은 여전히 좋지 않았습니다.
다음 전략은 훈련 세트에서 제외 인스턴스가 너무 적었 기 때문에 마이너스 인스턴스를 오버 샘플링하는 것이 었습니다. 이로 인해 더 정확한 취소 예측이 이루어졌지만 더 많은 오 탐지가 발생했습니다.
아마도 시계열 사용 데이터 자체는 그다지 예측하기가 쉽지 않다고 생각하기 시작했습니다. 아마도 내가 고려하지 않은 잠재 변수가있을 수 있습니다. 데이터를 보면 이상한 행동도 보입니다. 즉, 일부 예는 사용량이 매우 적거나 감소하는 경우 (또는 전혀 없음)를 나타내며 취소하지 않으며 일부는 취소하는 사용량이 증가합니다. 아마도 이러한 모순적인 행동은 분류 자에 대한 명확한 결정 경계를 생성하지 않습니다.
오류의 또 다른 원인은 많은 교육 예제가 매우 드문 경우입니다 (예 : 사용량이 0 인 며칠). 내가 아직 시도하지 않은 한 가지 아이디어는 시계열을 세그먼트로 나누고 그런 식으로 일부 기능을 생성하는 것이지만 높은 기대는 없습니다.