Q-Learning이 테스트 중에 엡실론 욕심을 사용하는 이유는 무엇입니까?

18

Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 많은 무작위 행동이 취해 지지만 (탐사), 훈련이 진행됨에 따라 최대 q 값을 가진 많은 행동이 취해집니다 (착취).

그런 다음 테스트하는 동안이 엡실론 탐욕 방법을 사용하지만 엡실론은 매우 낮은 값을 가지므로 탐색보다 착취에 대한 편향이 강하므로 임의 행동보다 q 값이 가장 높은 행동을 선택하는 것이 좋습니다. 그러나 임의 동작이 여전히 선택되는 경우가 있습니다 (5 %).

내 질문은 : 훈련이 이미 완료된 상태에서이 시점에서 왜 탐험이 필요한가? 시스템이 최적의 정책을 학습했다면, 왜 항상 행동을 가장 높은 q 값을 가진 것으로 선택할 수 없습니까? 교육을 통해서만 탐색을 수행해서는 안되며 최적의 정책을 배우면 에이전트는 최적의 조치를 반복적으로 선택할 수 있습니까?

감사!

— 카르 니 바우 루스
소스

그것은 어떻게 든 ALE 환경의 결정 론적 특성과 관련이있을 수 있습니다. 평가하는 동안 임의의 작업을 수행하지 않으면 상태 시퀀스가 동일하므로 항상 동일한 작업 시퀀스를 수행합니다. 그들은 또한 무작위로 시작합니다.이 이유로 아무것도하지 않는 최대 30 프레임을 기다리십시오.

— yobibyte

10

자연 신문에서 그들은 다음과 같이 언급합니다.

훈련 된 요원은 서로 다른 초기 무작위 조건 ( 'noop'; 확장 데이터 표 1 참조)과 엡실론 0.05를 사용한 전자 탐욕 정책으로 매번 최대 5 분 동안 각 게임을 30 번 플레이하여 평가했습니다. 이 절차는 평가 중 과적 합 가능성을 최소화하기 위해 채택되었습니다.

나는 그들이 의미하는 바가 '오버 / 언더 피팅의 부정적인 영향을 무효화하는 것'이라고 생각합니다. 엡실론 0을 사용하는 것은 완전히 착취 적이며 (당신이 지적한대로) 선택이며 강력한 진술을합니다.

예를 들어, 상담원의 현재 Q 추정값이 하나의 그리드를 제외하고 최적의 정책으로 수렴 된 미로 게임을 생각해보십시오. 상담원이 그러한 상태에 도달하고 최대 Q 작업을 선택하는 경우에는 영원히 유지됩니다. 그러나, 소량의 엡실론과 같이 모호한 탐구 적 / 확률 론적 요소를 정책으로 유지하면 그러한 상태에서 벗어날 수 있습니다.

실제로, 실제로 구현 한 코드 구현에서 (그리고 직접 코딩 한) 코드는 종종 질문에 열거 한 정확한 이유로 탐욕스러운 정책으로 측정됩니다.

— 주 바브
소스

3

답은 논문 자체에 있습니다. 과적 합을 피하기 위해 를 사용했습니다 . 이 모델은 기준으로 사용됩니다. 그리고 yobibyte는 같은 이유로 무작위로 시작한다는 의견에 언급했습니다. 그런 다음 알고리즘은 인간 전문가에 대한 성능을 평가합니다. 알고리즘에는 상대 모델이 없으므로 작은 엡실론입니다. 상대방의 모델을 가지고 있다면 문제가 확률론 적이 아니라 결정론적일 것입니다. 이것이 귀하의 질문에 답변되기를 바랍니다. $\epsilon\ = 0.05$

— 교황
소스

2

테스트의 목적은 실제 상황에서 시스템이 어떻게 반응하는지 이해하는 것입니다.

$\epsilon$

옵션 2 :
덜 약한 "합리적인"플레이어를 상대로 취하기에 취약한 경우, 과도하게 평가하지 않기 위해 훈련 점수를 "어닐링"할 수 있습니다.

옵션 3 :
이것은 마법의 연기입니다. 그들이 공유 할 수없고 공유하고 싶지 않은 것들이있을 것입니다. 그들은 공유하고 싶지 않은 비즈니스에 독점적이거나 예외적으로 관련된 것을 모호하게하기 위해 이것을 게시 할 수 있습니다.

옵션 4 :
반복 테스트와 다양한 엡실론 값을 사용하여 시스템에 남아있는 "지방"양을 테스트 할 수 있습니다. 그들이 무작위 배정이 약하거나 공정 무작위 배정조차도 반복되기 시작하는 많은 샘플을 가지고 있다면,이 방법은 의사-무작위 편견에 대한 진실하지 않은 행동을 "학습"할 수 있습니다. 이를 통해 테스트 단계에서이를 확인할 수 있습니다.

나는 6 가지의 다른 의미있는 이유가 있다고 확신하지만 이것들은 내가 생각할 수있는 것이었다.

편집 : 자기 메모, 난 정말 "취성"생각을 좋아한다. 나는 그것이 1 세대 중간 AI의 실존 약점 일 수 있다고 생각한다.

— EngrStudent-복직 모니카
소스

1

$\epsilon$

$\epsilon$ $\epsilon = 0.05$

특히 사전 처리 된 입력에는 이전에 발생한 상태 기록이 포함되어 있기 때문에 기본 게임 플레이를 일반화하는 대신 에이전트가 해당 특정 게임에 대한 최적의 궤적을 암기하고 테스트 단계에서 다시 재생해야합니다. 이것이 "평가 중 과적 합 가능성" 이라는 의미 입니다. 결정 론적 환경의 경우 이것은 명백하지만 확률 적 상태 전이에도 암기 (즉, 과적 합)가 발생할 수 있습니다. 테스트 단계에서 무작위 길이의 임의 길이의 시작과 게임 중 무작위 동작의 일부로 무작위 화를 사용하면 알고리즘이 예기치 않은 상태를 처리하게되므로 어느 정도 일반화가 필요합니다.

$\epsilon$ $\epsilon = 0$ 테스트하는 동안 성능이 향상 될 수 있지만 여기서 중요한 점은 일반화 기능을 보여주는 것입니다. 또한 대부분의 아타리 게임에서 상태는 무전으로 진화하므로 에이전트는 자연스럽게 "고정되지 않은"상태가됩니다. 환경이 무방비 상태로 진화하지 않는 다른 언급 된 미로 예제를 고려할 때, 에이전트는 보상이 제대로 형성되면 벽으로 뛰어 드는 것이 좋은 생각이 아니라는 것을 빨리 알게 될 것입니다 (예 : 각 단계마다 -1). 특히 낙관적 초기 값을 사용할 때 필요한 탐색이 자연스럽게 발생합니다. 어떤 상황에서 알고리즘이 여전히 멈추는 것을 발견하면 동작과 관련하여 보조 무작위 배정을 도입하는 대신 훈련 시간을 늘려야합니다 (즉, 더 많은 에피소드를 실행해야 함).

그러나 진화하는 시스템 역학 (기본 상태 전환 또는 시간에 따른 보상 변경)이있는 환경에서 실행중인 경우 변경 사항을 따라 잡기 위해 어느 정도의 탐색을 유지하고 정책을 적절히 업데이트해야합니다.

— 손님
소스