1
DQN에 두 개의 다른 네트워크가 필요한 이유는 무엇입니까?
I 관통가는 이 DQN의 구현 및 I은 라인 124, 125 Q 개의 상이한 네트워크가 초기화 된 것을 알 수있다. 내 이해로, 하나의 네트워크가 적절한 조치를 예측하고 두 번째 네트워크는 Bellman 오류를 찾기 위해 목표 Q 값을 예측한다고 생각합니다. Q 값을 단순히 예측하여 두 경우 모두에 사용하는 단일 네트워크를 만들 수없는 …