DeepMind는 그들의 Deep Q-network (DQN)가 49 개의 Atari 게임을 배우면서 행동을 지속적으로 조정할 수 있었다고 말합니다.
동일한 신경망을 가진 모든 게임을 학습 한 후, 에이전트는 '슈퍼 휴먼'레벨에서 동시에 게임을 할 수 있었습니까 (게임 중 하나가 무작위로 제시 될 때마다) 재 학습이 필요 했습니까?
"같은 신경망으로 모든 게임을 배운 후". 이것은 동일한 NN 아키텍처 또는 동일한 아키텍처 및 단일 가중치 집합을 의미합니까?
—
Ankur
@Ankur는 실제로 확실하지 않습니다-그들이 동일한 아키텍처를 사용하고 게임 사이의 가중치를 재설정하지 않았다는 것은 나의 (제한적) 이해입니다.
—
Dion