주어진 텍스트 문자열과 모든 하위 문자열을 허용하는 비 주기적 유한 상태 자동 생성기를 생성하는 패턴 일치 알고리즘을 사용하고 있습니다. FSA 알고리즘은 음악 스트림 (예 : MIDI 데이터)을 상징적으로 표현하고 있습니다. 음악 스트림은 각 노래를 레이블이없는 '세그먼트'로 나누기 위해 사전 처리되었습니다. FSA는 각각의 노래의 각 세그먼트에 대해 생성된다 : I가있는 경우에 곡을 각각으로 분할 Y 세그먼트, I는 것이다 N ⋅ Y 별도 FSAs한다.
각 세그먼트의 FSA를 제 말뭉치의 다른 FSA와 비교하고 싶습니다. 궁극적 목표는 유사성 공간 내에서 클러스터링을 수행하고 구성 지표가 얼마나 유사한 지에 따라 세그먼트의 '클래스'를 만드는 것입니다. 따라서, 각 FSA가 정의한 문법이 특히 중요하다 (세그먼트 내의 음악 컨텐츠의 대략 특정 구성 요소에 대응함). 이와 같은 것을 비교하는 데 유용한 기술이 있습니까? 더 나은 /보다 효율적인 기술이있을 수 있지만 KL- 분산이 생각납니다 (예를 들어, 주어진 FSA와 관련된 문자열에 대한 분포를 비교하는 것 사용)?
또한이 질문이 (1) 사소한 편이거나 (2) 더 깊은 오해를 나타내는 것이거나 (3) 다른 곳에서 대답 한 경우에 사과드립니다. 나는 진짜 멍청 아, 여러분!