ASL (American Sign Language) 제스처 를 분류하기위한 제스처 인식 시스템을 구축하려고합니다 . 따라서 입력은 카메라 또는 비디오 파일에서 프레임 시퀀스로 가정되며 시퀀스를 감지하여 해당하는 것에 매핑합니다 수업 (수면, 도움, 식사, 달리기 등)
문제는 이미 비슷한 시스템을 구축했지만 정적 이미지 (모션 포함 되지 않음)의 경우 손이 많이 움직이지 않고 CNN 을 구축하는 것이 간단한 작업 인 경우에만 알파벳을 번역하는 데 유용했습니다 . 데이터 세트 구조는 내가 keras 를 사용하면서 관리 할 수 있었으며 아마도 그렇게하려고합니다 (모든 폴더에는 특정 기호에 대한 이미지 세트가 포함되어 있으며 폴더 이름은이 기호의 클래스 이름입니다 : 예 : A, B, C ..)
여기 내 질문 은 keras 의 RNN 에 데이터를 입력 할 수 있도록 데이터 세트를 구성하는 방법 과 모델 및 필요한 매개 변수를 효과적으로 훈련하기 위해 어떤 기능을 사용해야합니까? 일부 사람들은 TimeDistributed 클래스를 사용 하도록 제안 했지만 내가 선호하는 방법을 사용하는 방법에 대한 명확한 아이디어를 가지고 네트워크의 모든 레이어의 입력 모양을 고려하십시오.
또한 내 데이터 세트가 이미지로 구성된다는 점을 고려할 때 컨볼 루션 레이어가 필요할 것입니다. 전환 레이어를 LSTM 레이어로 결합하는 것이 어떻게 가능 합니까 (코드 측면에서 의미합니다).
예를 들어 내 데이터 세트가 다음과 같다고 상상합니다.
'Run'이라는 폴더에는 3, 1, 2 및 3 개의 폴더가 있으며 각 폴더는 순서대로 해당 폴더에 해당합니다.
그래서 Run_1가 첫 번째 프레임에 대한 일부 이미지 세트를 포함, Run_2는 두 번째 프레임에 대한 Run_3 세 번째, 내 모델의 목적은 단어 출력이 순서로 훈련하는 것입니다 실행 .