«deep-rl» 태그된 질문

4
Q-Learning이 테스트 중에 엡실론 욕심을 사용하는 이유는 무엇입니까?
Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.