내 데이터의 각 관측치는 0.1 초의 차이로 수집되었습니다. 날짜 및 시간 스탬프가 없으므로 시계열이라고하지 않습니다. 클러스터링 알고리즘 (온라인에서 찾음) 및 PCA의 예에서 샘플 데이터는 사례 당 1 개의 관측치를 가지며 시간이 지정되지 않았습니다. 그러나 내 데이터에는 차량 당 0.1 초마다 수백 개의 관측치가 수집되며 많은 차량이 있습니다.
참고 : quora 에서도이 질문을했습니다.
내 데이터의 각 관측치는 0.1 초의 차이로 수집되었습니다. 날짜 및 시간 스탬프가 없으므로 시계열이라고하지 않습니다. 클러스터링 알고리즘 (온라인에서 찾음) 및 PCA의 예에서 샘플 데이터는 사례 당 1 개의 관측치를 가지며 시간이 지정되지 않았습니다. 그러나 내 데이터에는 차량 당 0.1 초마다 수백 개의 관측치가 수집되며 많은 차량이 있습니다.
참고 : quora 에서도이 질문을했습니다.
답변:
당신이 가진 것은 시간에 따른 일련의 사건이므로 그것을 망설이지 말고 시계열이라고 부르십시오!
시계열의 클러스터링에는 두 가지 의미가 있습니다.
나는 당신이 두 번째 것을 의미한다고 가정하고 여기에 내 제안이 있습니다.
차량 당 많은 차량과 많은 관측치가 있습니다. 즉, 많은 차량이 있습니다. 따라서 여러 행렬이 있으며 (각 차량은 행렬 임) 각 행렬에는 N 개의 행 (Nr의 관측치)과 T 개의 열 (시간 점)이 포함됩니다. 하나의 제안은 PCA를 각 행렬에 적용하여 차원을 줄이고 PC 공간에서 데이터를 관찰하고 행렬 (차량) 내에서 서로 다른 관측치 간에 의미있는 관계가 있는지 확인할 수 있습니다 . 그런 다음 모든 차량에 대한 각 관측치를 서로 배치하고 매트릭스를 만들고 PCA를 적용하여 다른 차량 간의 단일 관측치의 관계를 볼 수 있습니다.
음수 값이없는 경우 행렬 형식 데이터의 차원 축소에 행렬 인수 분해 를 사용하는 것이 좋습니다.
다른 제안은 모든 행렬을 서로의 위에 놓고 N x M x T 텐서를 구성 할 수 있습니다. 여기서 N 은 차량 수, M 은 관측치 수, T 는 시간 순서이며 Tensor 분해 를 적용 하여 전 세계 관계를 볼 수 있습니다.
이 백서에서는 구현이 조용히 진행되는 시계열 클러스터링에 대한 매우 훌륭한 접근 방식을 보여줍니다 .
도움이 되었기를 바랍니다.
행운을 빕니다 :)
언급했듯이 시계열 분할을 의미합니다.
시계열 세분화는 평가에 대한 근거가있는 유일한 클러스터링 문제입니다. 실제로 당신은 시계열 뒤에 발생 분포를 고려하고 난 강력하게 추천 그것을 분석 이 , 이 , 이 , 이 , 이 과 이 문제를 종합적으로 연구되는 경우입니다. 특히 마지막 논문과 박사 학위 논문.
행운을 빕니다!