Hidden Markov Models 및 Gaussian Mixture Models와 같은 많은 통계 모델링 작업을하고 있습니다. 이러한 각 사례에서 우수한 모델을 훈련하려면 최종 사용 환경과 유사한 환경에서 가져온 대량 (> HMM의 경우 20000 문장)의 데이터가 필요합니다. 내 질문은 :
- 문헌에 "충분한"훈련 데이터의 개념이 있습니까? "충분한"훈련 데이터는 얼마입니까?
- "좋은"(좋은 인식 정확도 (> 80 %)를 제공하는) 모델을 훈련하는 데 필요한 문장 수를 어떻게 계산할 수 있습니까?
- 모델이 제대로 훈련되었는지 어떻게 알 수 있습니까? 모형의 계수가 임의의 변동을 나타 내기 시작합니까? 그렇다면 모델 업데이트로 인한 임의 변동과 실제 변경을 어떻게 구별합니까?
태그가 더 필요한 경우이 질문에 태그를 다시 지정하십시오.