내가 아는 한, 왜 우리가 수렴이 부족하거나 더 나쁜 경우에 발산의 위험이 생길 때 정확히 / 공식적으로 이해하는 것은 여전히 개방적인 문제입니다. 그것은 일반적으로 "치명적인 트라이어드" (Sutton과 Barto의 두 번째 판 11.3 참조)에 기인합니다 .
- 함수 근사, AND
- 부트 스트랩 핑 Q학습), 그리고
- 정책 외 교육 (Q-학습은 사실상 정책 외의 정책입니다.
그것은 우리에게 수렴이 부족하거나 발산의 위험이있는 경우에 대한 설명을 제공 할 뿐이지 만 그 이유가 무엇인지 는 아직 알려주지 않습니다 .
John의 답변은 이미 문제의 일부가 단순히 함수 근사법을 사용하면 함수 근사 기가 참으로 표현하기에 충분히 강력하지 않은 상황으로 쉽게 이어질 수 있다는 직관을 제공합니다.Q∗ 다른 함수 근사기로 전환하지 않고 제거 할 수없는 근사 오차가 항상있을 수 있습니다.
개인적으로, 나는이 직관이 알고리즘이 최적의 솔루션으로 수렴을 보장 할 수없는 이유를 이해하는 데 도움이된다고 생각하지만, 여전히 가능한 가장 가까운 근사치 인 "안정한"솔루션으로 "수렴"할 수있을 것으로 직관적으로 기대합니다. 선택된 함수 표현에 내재 된 제한 실제로 이것은 선형 함수 근사치의 경우에 정책 상 훈련 (예 : Sarsa)으로 전환 할 때 실제로 관찰하는 것입니다.
이 질문에 대한 나의 직관은 일반적으로 문제의 중요한 원인이 일반화라는 것이었다 . 표 설정에서 항목을 완전히 분리했습니다.Q(s,a) 모든 (s,a)한 쌍. 한 항목에 대한 예상치를 업데이트 할 때마다 다른 모든 항목은 수정되지 않은 채로 둡니다 (최소한 초기에는 업데이트 규칙의 부트 스트랩으로 인해 향후 업데이트에서 다른 항목에 영향을 줄 수 있음). 다음과 같은 알고리즘에 대한 규칙 업데이트Q-Learning 우리는 "불운"얻는 경우에 사르 사 때로는 "잘못된"방향으로 업데이트 할 수 있지만, 기대에 , 그들은 일반적으로 올바른 "방향"으로 업데이트합니다. 직관적으로 이것은 표 설정 에서 예상 대로 다른 항목에 해를 끼치 지 않고 격리 된 항목의 오류를 천천히 점진적으로 수정 한다는 것을 의미 합니다.
함수 근사를 사용하면 업데이트 할 때 Q(s,a) 하나를 추정하다 (s,a)쌍, 그것은 잠재적으로 영향을 미칠 수 있는 모든 우리의 다른 추정치를 모든 다른 국가 액션 쌍. 직관적으로 이것은 표 설정 에서처럼 더 이상 항목을 잘 격리하지 못하고 한 항목의 "고정"오류가 다른 항목에 새로운 실수를 추가 할 위험이 있음을 의미합니다. 그러나 John의 답변과 마찬가지로이 전체 직관은 실제로 정책 정책에도 적용되므로 여전히 특별한 점은 설명하지 않습니다.Q-학습 (및 기타 정책 외 접근).
이 주제에 대한 매우 흥미로운 최근 논문은 비 망상 Q- 러닝 및 가치 반복 입니다. 함수 근사와 관련 업데이트 규칙을 결합한 알고리즘의 "망상 편향"문제를 지적합니다.max Q- 러닝과 같은 연산자 (아마도 max 운영자이지만, 일반적으로 정책 외 정책에 적용됩니까?).
문제는 다음과 같습니다. 우리가 이것을 실행한다고 가정Q동작 쌍에 대한 학습 학습 업데이트 (s,a):
Q(s,a)←Q(s,a)+α[maxa′Q(s′,a′)−Q(s,a)].
가치 추정 maxa′Q(s′,a′) 여기에 사용 된 것은 이전 버전의 욕심 많은 정책을 실행한다는 가정을 기반으로합니다. Q아마도 매우 긴 궤도에 대한 추정치. 이전 답변 중 일부에서 이미 설명한 것처럼 함수 근사 기는 표현 능력이 제한적이며 하나의 상태 동작 쌍에 대한 업데이트는 다른 상태 동작 쌍의 값 추정에 영향을 줄 수 있습니다. 이는 다음에 대한 업데이트를 트리거 한 후Q(s,a), 우리의 기능 approximator는 더 이상 동시에 정책을 표현 할 수 없을 수 있다는 높은 수익률을 리드 우리maxa′Q(s′,a′)추정치는을 기준으로 합니다. 이 논문의 저자는 알고리즘이 "망상"이라고 말합니다. 그것은 줄을 넘어서도 여전히 큰 수익을 얻을 수 있다고 가정하여 업데이트를 수행하지만, 더 이상 실제로 새로운 버전의 함수 근 사기 매개 변수를 사용하여 그러한 수익을 얻을만큼 강력하지 않을 수 있습니다.
마지막으로,이 질문과 관련이 있다고 생각되는 다른 (더 최근의) 논문 은 Deep Q-learning Algorithms의 병목 현상 진단 이지만 불행히도 아직 충분히 자세하게 읽고 충분히 요약 할 시간이 없었습니다.