함수 근사법을 사용할 때 Q- 러닝이 수렴하지 않는 이유는 무엇입니까?


12

학습률 에 대한 다음 조건 ( Robins-Monro 조건 )이 충족 되는 경우 테이블 형식 Q- 러닝 알고리즘은 최적의 함수 를 찾을 수 있습니다.QQ

  1. tαt(s,a)=
  2. tαt2(s,a)<

여기서 는 상태 와 연관된 값을 업데이트하고 시간 단계 에서 조치 를 업데이트 할 때 사용되는 학습 속도를 의미합니다 . 여기서 은 true로 가정됩니다. 모든 국가에 대한 와 행동 .αt(s,a)Qsat0αt(s,a)<1sa

분명히 하면 두 조건이 모두 충족 되려면 모든 상태-조치 쌍을 자주 자주 방문해야합니다. 이것은 강화 학습 : 소개 책에도 나와 있습니다 . , 이것이 널리 알려 져야한다는 사실과는 별도로, 이는 훈련 중 greedy 정책 (또는 유사한 정책) 의 사용에 대한 근거 입니다.0αt(s,a)<1ϵ

전체 증명하는 것을 보여준다 -Learning 찾은 최적의 함수 논문에서 찾을 수있다 Q 학습 융합 : 간단한 증명 (프란 S. 멜로 의해). 그는 이 수축 연산자의 고정 점 인 최적 함수 를 정의하기 위해 수축 맵핑 과 같은 개념을 사용 합니다 ( 강화 학습에서 Bellman 연산자무엇입니까? 참조 ). 또한 몇 가지 가정을 고려 하여 수렴되는 랜덤 프로세스에 관한 정리 (2 번)를 사용합니다 . (수학자가 아닌 경우 증거를 따르기가 쉽지 않을 수 있습니다.)QQQ0

신경망이 기능 을 나타내는 데 사용되는 경우 러닝 의 수렴 보장이 여전히 유지됩니까? 함수 근사법을 사용할 때 Q- 러닝이 수렴되는 이유는 무엇입니까? 함수 근사법을 사용한 러닝 의 비 수렴에 대한 공식적인 증거가 있습니까?QQQ

나는 함수형 근사법을 사용할 때 - learning 의 비 수렴에 대한 직관을 제공하는 답변에서 공식적인 증거 (또는 공식적인 증거가있는 논문에 대한 링크)를 제공하는 답변에서 다른 유형의 답변을 찾고 있습니다 .Q


2
좋은 질문입니다!
John Doucette

참조한 책은 11 장에서이 문제에 대해 이야기하므로 읽을 수 있습니다. 또한 왜 이런 일이 발생하는지에 대한 공식적인 증거는 없다고 생각하지만 간단한 환경 (예 : Tsitsiklis 및 van Roy)에서도 차이를 보여주는 예는 거의 없습니다.
Brale

답변:


8

다음은 직관적 인 설명 답변입니다.

파라미터 근사화 기능을 사용하여 함수 근사를 수행 할 수 있습니다. 의 문제를 고려Q(s,a) 우주 어디 s 긍정적 인 현실이고 a 이다 0 또는 1그리고 진정한 Q- 함수는 Q(s,0)=s2, Q(s,1)=2s2모든 주에 적용됩니다. 함수 근사값이Q(s,a)=ms+na+b사실을 정확하게 나타낼 수있는 매개 변수가 없습니다. Q함수 (선을 이차 함수에 맞추려고합니다). 결과적으로, 좋은 학습률을 선택하고 모든 주를 무한정 자주 방문하더라도 근사 함수는 절대로 수렴하지 않습니다.Q 함수.

그리고 여기 좀 더 자세한 내용이 있습니다 :

  1. 신경망은 대략적인 기능을합니다. 복잡한 다항식을 사용하여 근사값을 구하면 함수를 더 크거나 더 적게 근사 할 수 있습니다. Taylor Series 근사법에 익숙하다면이 아이디어는 매우 자연스럽게 보일 것입니다. 그렇지 않다면 구간 [0-π/2). 직선으로 (나쁘게) 근사화 할 수 있습니다. 이차 곡선으로 더 잘 근사화 할 수 있습니다. 커브를 근사화하는 데 사용하는 다항식의 정도를 증가시킴으로써 커브에 더 적합한 것을 얻을 수 있습니다.
  2. 신경망은 보편적 인 함수 근사치 입니다. 즉, 함수가있는 경우 작성한 함수를 임의의 정확도로 근사 할 수있을 정도로 깊거나 넓은 신경망을 만들 수도 있습니다. 그러나 선택한 특정 네트워크 토폴로지 는 무한히 넓거나 깊이가 아니라면 모든 기능 을 학습 할 수 없습니다 . 이것은 올바른 매개 변수를 선택하면 선이 두 점에 맞을 수 있지만 세 점이 아닌 방법과 유사합니다. 특정 유한 너비 또는 깊이의 네트워크를 선택하면 항상 제대로 맞는 뉴런이 더 필요한 함수를 구성 할 수 있습니다.

  3. Q- 러닝의 경계는 Q 함수의 표현이 정확한 경우에만 유지됩니다 . 이유를 확인하기 위해 선형 보간으로 Q 함수를 근사화하기로 선택했다고 가정하십시오. 실제 함수가 어떤 형태를 취할 수 있다면 XOR과 같은 Q 함수 함수를 구성하여 보간 오류를 무한대로 크게 만들 수 있으며 여분의 시간이나 데이터가 없어도이 오류를 줄일 수 있습니다 . 함수 근사기를 사용하고 실제 함수가 적합 하지 않은 경우함수가 임의로 근사 할 수있는 것이라면, 선택한 학습 속도와 탐색 속도로도 모델이 제대로 수렴되지 않습니다. 계산 학습 이론의 용어를 사용하여 Q- 학습에 대한 수렴 증명은 실제 Q- 함수가 모델을 선택할 가설 공간의 구성원이라고 암시 적으로 가정했다고 말할 수 있습니다.


내가 언급 한 증거에서 "Q- 학습의 표현이 정확한 경우에만 Q- 러닝의 한계가 유지된다"는 것을 어디에서 볼 수 있습니까?
nbro

따라서 신경망 아키텍처를 사용하면 (합리적) 기능을 근사 할 수 있지만 고정 신경망 아키텍처를 고려할 때 Z (훈련 단계 시작시 선택해야합니다. Q-배우기), Q-러닝은 특정 아키텍처를 사용하여 수렴하지 않을 수 있습니다 Z, 때문에 Z 표현하기에 충분하지 않을 수 있습니다 Q.
nbro

@nbro 증명은 명시 적으로 말하지 않지만 Q 함수의 정확한 표현을 가정합니다 (즉, 정확한 값은 모든 상태 / 조치 쌍에 대해 계산 및 저장 됨). 무한 상태 공간의 경우 최악의 경우에 정확한 표현이 무한대로 클 수 있음이 분명합니다 (간단한 예 : let Q (s, a) = sth pi of pi). 두 번째 의견은 잘 요약합니다. 보다 공식적으로, 실제 가설 Q *가 모델을 선택하는 가설 공간 H의 요소가 아닌 경우 무한 시간이나 데이터가 있더라도 Q *로 수렴 할 수 없습니다.
John Doucette

4

내가 아는 한, 왜 우리가 수렴이 부족하거나 더 나쁜 경우에 발산의 위험이 생길 때 정확히 / 공식적으로 이해하는 것은 여전히 ​​개방적인 문제입니다. 그것은 일반적으로 "치명적인 트라이어드" (Sutton과 Barto의 두 번째 판 11.3 참조)에 기인합니다 .

  1. 함수 근사, AND
  2. 부트 스트랩 핑 Q학습), 그리고
  3. 정책 외 교육 (Q-학습은 사실상 정책 외의 정책입니다.

그것은 우리에게 수렴이 부족하거나 발산의 위험이있는 경우에 대한 설명을 제공 할 뿐이지 만 그 이유가 무엇인지 는 아직 알려주지 않습니다 .


John의 답변은 이미 문제의 일부가 단순히 함수 근사법을 사용하면 함수 근사 기가 참으로 표현하기에 충분히 강력하지 않은 상황으로 쉽게 이어질 수 있다는 직관을 제공합니다.Q 다른 함수 근사기로 전환하지 않고 제거 할 수없는 근사 오차가 항상있을 수 있습니다.

개인적으로, 나는이 직관이 알고리즘이 최적의 솔루션으로 수렴을 보장 할 수없는 이유를 이해하는 데 도움이된다고 생각하지만, 여전히 가능한 가장 가까운 근사치 인 "안정한"솔루션으로 "수렴"할 수있을 것으로 직관적으로 기대합니다. 선택된 함수 표현에 내재 된 제한 실제로 이것은 선형 함수 근사치의 경우에 정책 상 훈련 (예 : Sarsa)으로 전환 할 때 실제로 관찰하는 것입니다.


이 질문에 대한 나의 직관은 일반적으로 문제의 중요한 원인이 일반화라는 것이었다 . 표 설정에서 항목을 완전히 분리했습니다.Q(s,a) 모든 (s,a)한 쌍. 한 항목에 대한 예상치를 업데이트 할 때마다 다른 모든 항목은 수정되지 않은 채로 둡니다 (최소한 초기에는 업데이트 규칙의 부트 스트랩으로 인해 향후 업데이트에서 다른 항목에 영향을 줄 수 있음). 다음과 같은 알고리즘에 대한 규칙 업데이트Q-Learning 우리는 "불운"얻는 경우에 사르 사 때로는 "잘못된"방향으로 업데이트 할 수 있지만, 기대에 , 그들은 일반적으로 올바른 "방향"으로 업데이트합니다. 직관적으로 이것은 표 설정 에서 예상 대로 다른 항목에 해를 끼치 지 않고 격리 된 항목의 오류를 천천히 점진적으로 수정 한다는 것을 의미 합니다.

함수 근사를 사용하면 업데이트 할 때 Q(s,a) 하나를 추정하다 (s,a)쌍, 그것은 잠재적으로 영향을 미칠 수 있는 모든 우리의 다른 추정치를 모든 다른 국가 액션 쌍. 직관적으로 이것은 표 설정 에서처럼 더 이상 항목을 잘 격리하지 못하고 한 항목의 "고정"오류가 다른 항목에 새로운 실수를 추가 할 위험이 있음을 의미합니다. 그러나 John의 답변과 마찬가지로이 전체 직관은 실제로 정책 정책에도 적용되므로 여전히 특별한 점은 설명하지 않습니다.Q-학습 (및 기타 정책 외 접근).


이 주제에 대한 매우 흥미로운 최근 논문은 비 망상 Q- 러닝 및 가치 반복 입니다. 함수 근사와 관련 업데이트 규칙을 결합한 알고리즘의 "망상 편향"문제를 지적합니다.max Q- 러닝과 같은 연산자 (아마도 max 운영자이지만, 일반적으로 정책 외 정책에 적용됩니까?).

문제는 다음과 같습니다. 우리가 이것을 실행한다고 가정Q동작 쌍에 대한 학습 학습 업데이트 (s,a):

Q(s,a)Q(s,a)+α[maxaQ(s,a)Q(s,a)].

가치 추정 maxaQ(s,a) 여기에 사용 된 것은 이전 버전의 욕심 많은 정책을 실행한다는 가정을 기반으로합니다. Q아마도 매우 긴 궤도에 대한 추정치. 이전 답변 중 일부에서 이미 설명한 것처럼 함수 근사 기는 표현 능력이 제한적이며 하나의 상태 동작 쌍에 대한 업데이트는 다른 상태 동작 쌍의 값 추정에 영향을 줄 수 있습니다. 이는 다음에 대한 업데이트를 트리거 한 후Q(s,a), 우리의 기능 approximator는 더 이상 동시에 정책을 표현 할 수 없을 수 있다는 높은 수익률을 리드 우리maxaQ(s,a)추정치는을 기준으로 합니다. 이 논문의 저자는 알고리즘이 "망상"이라고 말합니다. 그것은 줄을 넘어서도 여전히 큰 수익을 얻을 수 있다고 가정하여 업데이트를 수행하지만, 더 이상 실제로 새로운 버전의 함수 근 사기 매개 변수를 사용하여 그러한 수익을 얻을만큼 강력하지 않을 수 있습니다.


마지막으로,이 질문과 관련이 있다고 생각되는 다른 (더 최근의) 논문 은 Deep Q-learning Algorithms의 병목 현상 진단 이지만 불행히도 아직 충분히 자세하게 읽고 충분히 요약 할 시간이 없었습니다.


1
그러나 특정 상태가 각각과 매우 유사하다는 가정 때문에 신경망을 사용하지 않습니까? 매우 유사한 상태 (예 : 게임의 연속 프레임)는 종종 매우 유사한 (또는 동일한) 최적 동작을 가지므로 첫 번째 논문의 설명이 유효한지 확실하지 않습니다 (주요 사항을 완전히 이해하려면 읽어야합니다).
nbro

1
@nbro 네, 종종 일반화는 그 이유 때문에 정확하게 문제가 아니라 이점으로 간주됩니다 . 그것이 "의도 된"것으로 작동한다면, 우리는 우리가 배우는 모든 것을 고립 된 상태에서 약간 다른 모든 상태 / 행동에 대한 학습보다는 유사한 상태 / 유사한 행동으로 이전하기 때문에 매우 강력하고 학습 속도를 높일 수 있습니다. 그러나 그것은 또한 이론적으로뿐만 아니라 실제로도 문제를 야기 할 수 있습니다. 제가 생각하는 "양날의 칼"과 같습니다.
Dennis Soemers

1
@DennisSoemers 매우 흥미로운 답변입니다. 비 망상 Q- 학습 요점은 많은 의미가 있습니다. 올바른 Q- 함수를 찾는 것은 업데이트 규칙에 대한 고정 점을 찾는 것을 의미하지만, 이러한 방식으로 생각하면 함수 근사가 Q- 러닝에서 주기적 업데이트로 이어질 수 있습니다.
John Doucette
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.