Atari의 게임 에서 Google 심층 업적을 읽은 후 q-learning 및 q-networks를 이해하려고 노력하고 있지만 약간 혼란 스럽습니다. 할인 요소의 개념에서 혼란이 발생합니다. 내가 이해 한 것에 대한 간략한 요약. 심층 컨볼 루션 신경망 (convolutional neural network)은 행동의 최적 기대 값의 값을 추정하는데 사용된다. 네트워크는 손실 함수를 최소화하는 여기서, E S ' [ Y | s , a ] 는 E [ r + γ m a x a ′ Q ( s ′ , a ′ ; θ − i ) | s,a] 여기서Q는 누적 점수 값이고r은 조치 선택에 대한 점수 값입니다. s,a및 s
보기의 수학적 관점에서 할인 요인과 상태에 도달 할 가능성을 나타냅니다 들 ' 상태에서 의 .
네트워크가 실제로 γ 의 실제 값에 따라 를 다시 스케일링하는 법을 배우는 것 같습니다 . 그래서 γ = 1을 허용하지 않는 이유는 무엇입니까?