제스처 인식 시스템에 RNN (LSTM) 사용

ASL (American Sign Language) 제스처 를 분류하기위한 제스처 인식 시스템을 구축하려고합니다 . 따라서 입력은 카메라 또는 비디오 파일에서 프레임 시퀀스로 가정되며 시퀀스를 감지하여 해당하는 것에 매핑합니다 수업 (수면, 도움, 식사, 달리기 등)

문제는 이미 비슷한 시스템을 구축했지만 정적 이미지 (모션 포함 되지 않음)의 경우 손이 많이 움직이지 않고 CNN 을 구축하는 것이 간단한 작업 인 경우에만 알파벳을 번역하는 데 유용했습니다 . 데이터 세트 구조는 내가 keras 를 사용하면서 관리 할 수 있었으며 아마도 그렇게하려고합니다 (모든 폴더에는 특정 기호에 대한 이미지 세트가 포함되어 있으며 폴더 이름은이 기호의 클래스 이름입니다 : 예 : A, B, C ..)

여기 내 질문 은 keras 의 RNN 에 데이터를 입력 할 수 있도록 데이터 세트를 구성하는 방법 과 모델 및 필요한 매개 변수를 효과적으로 훈련하기 위해 어떤 기능을 사용해야합니까? 일부 사람들은 TimeDistributed 클래스를 사용 하도록 제안 했지만 내가 선호하는 방법을 사용하는 방법에 대한 명확한 아이디어를 가지고 네트워크의 모든 레이어의 입력 모양을 고려하십시오.

또한 내 데이터 세트가 이미지로 구성된다는 점을 고려할 때 컨볼 루션 레이어가 필요할 것입니다. 전환 레이어를 LSTM 레이어로 결합하는 것이 어떻게 가능 합니까 (코드 측면에서 의미합니다).

예를 들어 내 데이터 세트가 다음과 같다고 상상합니다.

'Run'이라는 폴더에는 3, 1, 2 및 3 개의 폴더가 있으며 각 폴더는 순서대로 해당 폴더에 해당합니다.

그래서 Run_1가 첫 번째 프레임에 대한 일부 이미지 세트를 포함, Run_2는 두 번째 프레임에 대한 Run_3 세 번째, 내 모델의 목적은 단어 출력이 순서로 훈련하는 것입니다 실행 .

— 아나 소 비치
소스

ASL에 어떤 데이터 세트를 사용하고 있습니까?

— 샘 존슨

죄송하지만 우리는 우리 자신의 데이터 세트를 기록했으며 공개적으로 공개하지 않았지만 그다지 많지 않았으며 예상되는 정확도를 얻지 못했습니다.

— 아나 소 비치

확실히 할 수 있고 아래에 언급 된 기사에서 너무 많은 추가 코딩처럼 보이지는 않지만 이전에 사용한 아키텍처가 아니기 때문에 경험상 말하지 않습니다. 이 기사가 올바른 방향을 가리 키기를 바랍니다. machinelearningmastery.com/cnn-long-short-term-memory-networks

— Ollie Graham

내 이해에 따르면, 이것은 다중 클래스 분류 문제로 귀결됩니다 (각 손 동작의 각 세트 / 순서는 결국 단어 / 기호에 해당합니다). RNN / LSTM / GRU 아키텍처는 시작하기에 좋은 곳이지만 계산 비용이 많이 들고 훈련 속도가 느립니다. 그러나이 중 하나 이상이 절대적으로 필요한지 여부는 데이터의 구성 방식 및 이미지를 시퀀스가 아닌 세트로 처리하여 벗어날 수 있는지 여부에 따라 다릅니다.

몇 가지 가능한 아이디어는 다음과 같습니다.

각 "RUN_ *"폴더에 대해 dropout및 / 또는 flattening각 계층간에 CNN 계층을 설정하여 시작하십시오 .
시퀀스의 모든 단계를 나타내는 하나의 긴 벡터를 설정 한 다음 dropoutand 및 / 또는와 함께 CNN 레이어를 추가하십시오 flattening.

이를 위해서는 최고의 탐색과 조정이 필요하며 최적화 할 평가 지표 (예 : 정밀 / 호출)를 선택해야합니다.

CNN을 제안하는 이유는 특정 경우 CNN이 반복 모델과 비슷한 성능을 제공 할 수 있지만 비용의 일부만 제공하기 때문입니다. 불행히도 데이터에 대한 정보는 거의 또는 전혀 알기 어렵습니다.

— ngopal
소스