Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 많은 무작위 행동이 취해 지지만 (탐사), 훈련이 진행됨에 따라 최대 q 값을 가진 많은 행동이 취해집니다 (착취).
그런 다음 테스트하는 동안이 엡실론 탐욕 방법을 사용하지만 엡실론은 매우 낮은 값을 가지므로 탐색보다 착취에 대한 편향이 강하므로 임의 행동보다 q 값이 가장 높은 행동을 선택하는 것이 좋습니다. 그러나 임의 동작이 여전히 선택되는 경우가 있습니다 (5 %).
내 질문은 : 훈련이 이미 완료된 상태에서이 시점에서 왜 탐험이 필요한가? 시스템이 최적의 정책을 학습했다면, 왜 항상 행동을 가장 높은 q 값을 가진 것으로 선택할 수 없습니까? 교육을 통해서만 탐색을 수행해서는 안되며 최적의 정책을 배우면 에이전트는 최적의 조치를 반복적으로 선택할 수 있습니까?
감사!