mfcc 및 숨겨진 마르코프 모델을 사용하여 사운드 인식을위한 개념 증명 시스템을 개발했습니다. 알려진 사운드에서 시스템을 테스트 할 때 유망한 결과를 제공합니다. 시스템은 알려지지 않은 사운드가 입력 될 때 가장 근접한 결과를 반환하고 악보를 결정하기 위해 점수가 그다지 명확하지 않습니다. 예 :
나는 숨은 마르코프 모델 3 개를 연설 용으로, 하나는 수돗물에서 나오는 물과 책상을 두드리는 것을 훈련 시켰습니다. 그런 다음 보이지 않는 데이터에서 테스트하고 다음 결과를 얻습니다.
input: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
Here the input is an unknown sound but it still returns the closest match as there is no system for thresholding/garbage filtering.
키워드를 발견하면 OOV (어휘가 아닌) 사운드를 가비지 또는 필러 모델을 사용하여 걸러 낼 수 있지만, 알 수없는 단어를 사용하여 학습 할 수 있습니다. 시스템이 녹음 할 수있는 모든 소리를 모릅니다.
음성 인식 시스템에서 유사한 문제가 어떻게 해결됩니까? 그리고 오 탐지를 피하기 위해 어떻게 문제를 해결할 수 있습니까?