나는 신경망 실험을 시작하고 싶었고 장난감 문제로서 나는 하나의 채팅을 훈련하기를 원했다. 어쨌든 그렇게 영리하지 않습니다.
나는 몇 가지 문서를 둘러 보았고 일반적인 작업에 대한 많은 자습서를 찾았지만이 특정 주제에 대해서는 거의 알지 못했습니다. 내가 찾은 것은 구현에 대한 통찰력을주지 않고 결과를 공개했습니다. 그렇게 한 것은 꽤 얕았습니다 (seq2seq의 tensorflow 문서 페이지에 imho가 부족합니다).
이제 나는 그 원리를 어느 정도 이해했을 것 같지만 확실하지 않으며 시작하는 방법조차 확실하지 않습니다. 따라서 문제를 해결하는 방법을 설명 하고이 솔루션에 대한 피드백을 원합니다. 잘못 된 부분을 알려주고 프로세스에 대한 자세한 설명과 실용적인 지식과 관련이 있습니다.
작업에 사용할 데이터 세트는 모든 페이스 북과 whatsapp 채팅 기록의 덤프입니다. 나는 그것이 얼마나 클지 모르지만 여전히 충분히 크지 않을 것입니다. 대상 언어는 영어가 아니므로 의미있는 대화 샘플을 신속하게 수집 할 위치를 모릅니다.
각 문장에서 사고 벡터를 생성하려고합니다. 아직도 실제로 어떻게 모르는지; deeplearning4j 웹 사이트에서 word2vec에 대한 좋은 예를 찾았지만 문장에는 없습니다. 나는 단어 벡터가 어떻게 그리고 왜 만들어 졌는지 이해했지만 문장 벡터에 대한 철저한 설명을 찾을 수 없었습니다.
사고 벡터를 입력 및 출력으로 사용하여 신경망을 훈련시킵니다. 얼마나 많은 레이어를 가져야하는지, 어떤 레이어가 lstm 레이어인지 알아야합니다.
그런 다음 생각 벡터를 문장을 구성하는 일련의 문자로 변환 할 수있는 다른 신경망이 있어야합니다. 다른 문장 길이를 보충하기 위해 패딩을 사용해야한다는 것을 읽었지만 문자를 인코딩하는 방법이 충분하지 않습니다 (코드 포인트가 충분합니까?).