동적 시간 왜곡 및 정규화


9

동적 쿼리를 사용하여 "쿼리"및 "템플릿"곡선과 일치하고 지금까지 합리적인 성공을 거두고 있지만 몇 가지 기본적인 질문이 있습니다.

  1. DTW 결과가 경험적으로 나타나는 임계 값보다 작은 지 평가하여 "일치"를 평가하고 있습니다. 이것이 DTW를 사용하여 "일치"를 결정하는 일반적인 방법입니까? 그렇지 않은 경우 설명하십시오 ...

    (1)에 대한 대답이 "예"라고 가정하면 DTW 결과는 a) 곡선의 진폭 차이와 b) 쿼리 벡터의 길이와 " 템플릿 "벡터입니다.

    대칭 단계 함수를 사용하고 있으므로 (b) M + N (폭 + 높이 DTW 매트릭스)으로 나눔으로써 DTW 결과를 정규화하고 있습니다. 이것은 다소 효과적인 것으로 보이지만 대각선에서 더 멀리있는 (즉, DTW 매트릭스를 통해 더 긴 경로를 갖는) DTW 일치에 불이익을주는 것으로 보입니다. "정규화"접근 방식에는 임의적 인 것으로 보입니다. 매트릭스를 통과하는 단계 수로 나누는 것은 직관적으로 이해되는 것처럼 보이지만 문헌에 따르면 그것을 수행하는 방법으로 보이지는 않습니다.

  2. 따라서 쿼리 및 템플릿 벡터의 크기에 맞게 DTW 결과를 조정하는 더 좋은 방법이 있습니까?

  3. 마지막으로 쿼리와 템플릿 벡터 간의 진폭 차이에 대한 DTW 결과를 어떻게 정규화합니까?

신뢰할 수있는 정규화 기술 (또는 이해 부족)이 없기 때문에 샘플 데이터를 사용하여 "일치"를 정의하기위한 최상의 임계 값 수준을 식별하는 데 많은 수동 노력이 필요한 것 같습니다. 뭔가 빠졌습니까?

답변:


8

적어도 내 지식에는 "일반적인 접근 방식"이 존재하지 않습니다. 어쨌든 거리 측정법을 최소화하려고합니다. 예를 들어, DTW 논문의 할아버지 인 Sakoe & Chiba (1978)||aibi|| 두 특징 벡터 사이의 차이의 측정으로.

올바로 식별 했으므로 동일한 수의 포인트 (일반적으로)가 있어야 즉시 사용할 수 있습니다. 커브에 대해 lowess () smoother / interpolator를 사용하여 먼저 동일한 크기로 만들 것을 제안합니다. "곡선 통계"에 대한 표준입니다. Chiou et al. 의 예제 애플리케이션을 볼 수 있습니다 . (2003) ; 저자는이 연구에서 DTW를 신경 쓰지 않지만 크기가 다른 판독 값을 다루는 방법은 좋은 예입니다.

또한 "진폭"은 문제입니다. 솔직히 말해서 좀 더 개방적입니다. Zhang과 Mueller (2011) 가 제안한 것과 같은 Area-Under-the-Curve 접근법 을 사용하여이 문제를 처리 할 수 ​​있지만 실제로는 정상 정규화 (예를 들어, replacef(x)f(x)supy|f(x)|Tang과 Mueller (2009) 가이 논문 에서처럼 할 수있다 . 나는 두 번째를 따를 것이지만, 어쨌든 샘플의 정규화가 필요하다는 것을 알았을 때 필요합니다.

데이터의 특성에 따라 더 많은 응용 분야별 문헌을 찾을 수 있습니다. 나는 목표로 쌍을 이루는 뒤틀림 기능과 관련하여 최소화하는 접근법을 개인적으로 찾습니다.g가장 직관적입니다. 따라서 최소화 할 대상 기능은 다음과 같습니다. Cλ(Yi,Yk,g)=E{T(Yi(g(t))Yk(t))2+λ(g(t)t)2dt|Yi,Yk}불확실성에도 불구하고 모든 것이 실제로 매우 간단합니다. 워핑 함수를 찾으려고 노력합니다. g 뒤틀린 쿼리 곡선의 불일치에 대한 예상 합계를 최소화합니다. Yi(g(t)) 기준 곡선에 Yk(t) (용어 Yi(g(t))Yk(t)) 왜곡에 의해 부과되는 시간 왜곡에 대한 정규화가 적용됩니다 (용어 g(t)t). 이것이 MATLAB 패키지 PACE 가 구현하는 것입니다. JO Ramsay 등 의 R 패키지 fda 가 있음을 알고 있습니다 . 그 또한 도움이 될 수도 있지만 나는 개인적으로 (조금 성가 시게 해당 패키지의 방법에 대한 표준 참조 램지와 실버의 훌륭한 책, 많은 경우에 그것을 사용하지 않았습니다 . 기능 데이터 분석 (2006) 2 판 , 그리고 당신은을 샅 샅히 뒤져해야 400 페이지 분량의 책으로 원하는 것을 얻으십시오. 어쨌든 잘 읽습니다.)

통계 문헌에서 설명하는 문제는 " 곡선 등록 "(예 : 문제의 조기 처리에 대해서는 Gasser and Kneip (1995) 참조) 으로 널리 알려져 있으며 Functional Data Analysis 기술 의 일반적인 범주에 속합니다 .

(원본을 온라인에서 구할 수있는 경우에는 링크가 지시하는 링크를 참조하십시오. 이 게시물로 대체되었습니다.)


이것은 훌륭하고 매우 유용한 답변입니다. 참조가 특히 도움이됩니다.
Mikko

dtw에서 "진폭이 문제"라는 내용의 적절한 참조 자료를 알고 있습니까? 이것은 아마도 너무 명백하여 참조에 대해 명확하게 논의하는 참조를 찾기 위해 고심하고 있습니다.
Mikko

나는 당신이 그것을 좋아해서 기쁘다. 내가 말했듯이 진폭의 처리는 "조금 더 개방적이다"고 말하지만 문제의 응용 프로그램이나 방법론과 관련이 없다면 (예를 들어 Zhang & Mueller ' 09). 다른 단위로 측정 된 데이터가있는 경우 정규화가 필요합니다. 일반적으로 중요한 것은 기능적 주체 / 정규 / what_have_you 구성 요소를 정규화하는 것입니다.L2.
usεr11852

이미 언급 한 자료에서 아마도 가장 좋은 방법은 Ramsay & Silverman, Chapt의 FDA 책일 것입니다. "기능 데이터의 등록 및 표시". 매우 유용한 자료는 다음과 같은 책입니다. "응용 프로그램을 통한 기능적 데이터 추론"Horváth 및 Kokoszka; 파트 III "종속 기능 데이터"는 대부분 변경 포인트 감지에 관심이 있기 때문에 정규화 문제를 다룹니다.
usεr11852
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.