특징 추출 기법-일련의 데이터 요약


11

나는 종종 시퀀스 인 예측 변수가있는 모델 (분류 또는 회귀)을 작성하고 있으며 모델에 예측 변수로 포함시킬 수있는 최선의 방법으로 변수를 요약하기위한 기술 권장 사항을 찾으려고 노력했습니다.

구체적인 예로, 고객이 향후 90 일 내에 회사를 떠날 것인지 예측하기 위해 모델을 구축한다고 가정합니다 (t와 t + 90 사이, 따라서 이진 결과). 사용 가능한 예측 변수 중 하나는 기간 t_0에서 t-1까지의 고객 재무 잔액 수준입니다. 아마도 이것은 이전 12 개월 동안의 월별 관측치 (예 : 12 회 측정)를 나타냅니다.

이 시리즈에서 기능을 구성하는 방법을 찾고 있습니다. 나는 평균, 높음, 낮음, 표준 개발과 같은 각 고객 시리즈의 설명을 사용하여 추세를 얻기 위해 OLS 회귀에 적합합니다. 기능을 계산하는 다른 방법이 있습니까? 변화 나 변동성의 다른 척도?

더하다:

아래 응답에서 언급했듯이 DTW (Dynamic Time Warping)를 사용한 다음 결과 거리 매트릭스에서 계층 적 클러스터링을 고려하여 클러스터를 생성 한 다음 클러스터 멤버 자격을 기능으로 사용하는 것도 고려했습니다. 스코어링 테스트 데이터는 새로운 사례와 클러스터 중심에서 DTW가 수행 된 프로세스를 따라야합니다. 새로운 데이터 계열을 가장 가까운 중심에 일치시킵니다.

답변:


7

피처 엔지니어링 / 추출에 대한 사례 연구를 수집 한 상자를보고 싶어합니다.

이것이 도움이되는지 조언하십시오

  1. 시계열 데이터의 이산화 http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. 지식 발견을위한 시계열 이산화 최적화 https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. SAX 경험 : 시계열의 새로운 상징적 표현 http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. 빅 데이터 시리즈의 대화식 탐색을위한 인덱싱 http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. 시계열 데이터의 구조 패턴 인식에 대한 일반화 된 특징 추출 http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. R의 동적 시간 왜곡 정렬 계산 및 시각화 : dtw 패키지 https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

여기서하려는 것은 피쳐의 차원을 줄이는 것입니다. 차원 축소를 검색하여 여러 가지 옵션을 얻을 수 있지만 가장 널리 사용되는 기술 중 하나는 주성분 분석 (PCA)입니다. 주요 구성 요소는 위에서 언급 한 옵션과 같이 해석 할 수 없지만 모든 정보를 요약하는 데 도움이됩니다.


이 답변에 대한 나의 관심은 PCA가 시리즈 t와 t + 1 사이의 명확한 의존성을 인식하지 못한다는 것입니다.
B_Miner

t 및 t + 1 의존성이 추세 또는 계절 성인 경우 추출하여 독립 변수와 같이 나머지를 처리하는 것을 고려하십시오.
Diego

2

피처 추출은 응용에 따라 다르기 때문에 항상 도전 과제이며 문헌에서 다루지 않는 주제입니다.

시도해 볼 수있는 몇 가지 아이디어 :

  • 매일 측정되는 원시 데이터. 길이가 다른 타임 라인을 비교할 수 있도록 약간의 의미와 추가 전처리 (정규화)가 있습니다.
  • 더 높은 순간 : 왜도, 첨도 등
  • 미분 : 진화 속도
  • 시간 범위는 크지 않지만 자동 상관과 같은 일부 시계열 분석 기능을 사용해 볼 가치가 있습니다.
  • 몇 주 안에 타임 라인을 깨고 각 주에 이미 측정 한 수량을 개별적으로 측정하는 것과 같은 일부 맞춤형 기능. 그러면 비선형 분류기는 예를 들어 첫 번째 주 기능을 마지막 주 기능과 결합하여 시간의 진화에 대한 통찰력을 얻을 수 있습니다.

좋은 제안! 파생 상품의 사용을 더 많이 살려 줄 수 있습니까?
B_Miner 2018 년

나는 당신의 첫 진술에 전적으로 동의합니다. 피처 엔지니어링 / 추출에 대한 사례 연구를 수집 한 상자를보고 싶습니다. 이에 대한 예측은 기능 생성이 예측 모델 성능에서 가장 최신의 최신 알고리즘보다 훨씬 중요하다는 것입니다.
B_Miner

2

언뜻보기에는 시계열 (x-12)-x에서 기능을 추출해야합니다. 한 가지 가능한 접근 방식은 평균, 분산 등 요약 메트릭을 계산하는 것입니다. 그러나 그렇게하면 시계열 관련 정보가 모두 손실됩니다. 그러나 곡선 모양에서 추출한 데이터는 매우 유용 할 수 있습니다. 저자가 시계열 클러스터링을위한 알고리즘을 제안하는 기사 를 살펴 보는 것이 좋습니다 . 희망이 도움이 될 것입니다. 이러한 클러스터링 외에도 기능 목록에 요약 통계를 추가 할 수 있습니다.


링크 주셔서 감사합니다. DTW와 계층 적 클러스터링 사용도 고려했습니다. DWT 용 R 패키지를 실험했습니다. jstatsoft.org/v31/i07/paper
B_Miner

1
특히 n 개의 클러스터를 만들고 클러스터링 멤버 자격을 기능으로 사용하는 것을 고려했습니다.
B_Miner
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.