음소 분류 에 관한 Graves의 2005 논문을 통해 시퀀스 레이블링에 RNN을 적용하는 방법을 이해하려고합니다 .
문제 요약 : 단일 문장의 (입력) 오디오 파일과 전문가 레이블이 지정된 시작 시간, 중지 시간 및 개별 음소에 대한 레이블 (무음, 각 오디오 파일의 각 샘플에는 음소 기호가 표시됩니다.)
이 논문의 핵심은 숨겨진 레이어에 LSTM 메모리 셀이있는 RNN을이 문제에 적용하는 것입니다. (그는 여러 변형과 다른 기술을 비교로 적용합니다. 나는 일방적 인 LSTM에만 관심이 있으며, 일을 단순하게 유지합니다.)
나는 네트워크의 아키텍처를 이해한다고 믿는다. 오디오 파일의 10ms 창에 해당하는 입력 레이어. 표준 오디오 작업 방식으로 전 처리됨. LSTM 셀의 숨겨진 계층과 모든 가능한 61 개의 전화 기호를 한 번에 코딩하는 출력 계층.
LSTM 장치를 통과하는 순방향 통과 및 역방향 통과의 (복잡하지만 간단한) 방정식을 이해한다고 생각합니다. 그것들은 단지 미적분과 연쇄 규칙입니다.
내가 이해하지 못하는 것은이 백서와 여러 유사한 논문을 여러 번 읽은 후에 는 역 전파 알고리즘을 정확하게 적용 할 때와 뉴런의 다양한 가중치를 정확하게 업데이트 할 때 입니다.
두 가지 그럴듯한 방법이 있습니다 :
1) 프레임 단위 백프로 프 및 업데이트
Load a sentence.
Divide into frames/timesteps.
For each frame:
- Apply forward step
- Determine error function
- Apply backpropagation to this frame's error
- Update weights accordingly
At end of sentence, reset memory
load another sentence and continue.
또는,
2) 문장 별 백프로 프 및 업데이트 :
Load a sentence.
Divide into frames/timesteps.
For each frame:
- Apply forward step
- Determine error function
At end of sentence:
- Apply backprop to average of sentence error function
- Update weights accordingly
- Reset memory
Load another sentence and continue.
이것은 Graves 논문을 뾰족한 (그리고 개인적으로 관련된) 예제로 사용하는 RNN 교육에 대한 일반적인 질문 입니다. 시퀀스에서 RNN을 훈련 할 때 모든 시간 단계에서 백프로 프가 적용됩니까? 시간 단계마다 가중치가 조정됩니까? 또는 엄격하게 피드 포워드 (feed-forward) 아키텍처에 대한 배치 교육과의 비유로, 백프로 프 및 가중치 업데이트가 적용되기 전에 특정 시퀀스에서 오류가 누적되고 평균화됩니까?
아니면 내가 생각하는 것보다 더 혼란 스럽습니까?