통계 모델 훈련을위한 "충분한"데이터 개념이 있습니까?


10

Hidden Markov Models 및 Gaussian Mixture Models와 같은 많은 통계 모델링 작업을하고 있습니다. 이러한 각 사례에서 우수한 모델을 훈련하려면 최종 사용 환경과 유사한 환경에서 가져온 대량 (> HMM의 경우 20000 문장)의 데이터가 필요합니다. 내 질문은 :

  1. 문헌에 "충분한"훈련 데이터의 개념이 있습니까? "충분한"훈련 데이터는 얼마입니까?
  2. "좋은"(좋은 인식 정확도 (> 80 %)를 제공하는) 모델을 훈련하는 데 필요한 문장 수를 어떻게 계산할 수 있습니까?
  3. 모델이 제대로 훈련되었는지 어떻게 알 수 있습니까? 모형의 계수가 임의의 변동을 나타 내기 시작합니까? 그렇다면 모델 업데이트로 인한 임의 변동과 실제 변경을 어떻게 구별합니까?

태그가 더 필요한 경우이 질문에 태그를 다시 지정하십시오.

답변:


10

데이터의 10 %, 20 %, 30 %, ..., 100 %를 사용하여 데이터 세트를 연속 서브 세트로 분할 할 수 있으며 각 서브 세트에 대해 k- 폴드 교차 검증 또는 부트 스트랩을 사용하여 추정기 정확도의 분산을 추정 할 수 있습니다. "충분한"데이터가있는 경우 분산을 플로팅하면 감소하는 단 조선이 표시되어 100 % 이전의 고원에 도달해야합니다. 더 많은 데이터를 추가해도 추정기의 정확도 변동이 크게 감소하지는 않습니다.


나는 그것을 시도해야 할 것이다. 흥미로운 것 같습니다. 감사!
Sriram
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.