함수 근사법을 사용할 때 Q- 러닝이 수렴하지 않는 이유는 무엇입니까?

12

학습률 에 대한 다음 조건 ( Robins-Monro 조건 )이 충족 되는 경우 테이블 형식 Q- 러닝 알고리즘은 최적의 함수 를 찾을 수 있습니다. $Q$ $Q^*$

$\sum_{t} \alpha_t(s, a) = \infty$
$\sum_{t} \alpha_t^2(s, a) < \infty$

여기서 는 상태 와 연관된 값을 업데이트하고 시간 단계 에서 조치 를 업데이트 할 때 사용되는 학습 속도를 의미합니다 . 여기서 은 true로 가정됩니다. 모든 국가에 대한 와 행동 . $\alpha_t(s, a)$ $Q$ $s$ $a$ $t$ $0 \leq \alpha_t(s, a) < 1$ $s$ $a$

분명히 하면 두 조건이 모두 충족 되려면 모든 상태-조치 쌍을 자주 자주 방문해야합니다. 이것은 강화 학습 : 소개 책에도 나와 있습니다 . , 이것이 널리 알려 져야한다는 사실과는 별도로, 이는 훈련 중 greedy 정책 (또는 유사한 정책) 의 사용에 대한 근거 입니다. $0 \leq \alpha_t(s, a) < 1$ $\epsilon$

전체 증명하는 것을 보여준다 -Learning 찾은 최적의 함수 논문에서 찾을 수있다 Q 학습 융합 : 간단한 증명 (프란 S. 멜로 의해). 그는 이 수축 연산자의 고정 점 인 최적 함수 를 정의하기 위해 수축 맵핑 과 같은 개념을 사용 합니다 ( 강화 학습에서 Bellman 연산자 는 무엇입니까? 참조 ). 또한 몇 가지 가정을 고려 하여 수렴되는 랜덤 프로세스에 관한 정리 (2 번)를 사용합니다 . (수학자가 아닌 경우 증거를 따르기가 쉽지 않을 수 있습니다.) $Q$ $Q$ $Q$ $0$

신경망이 기능 을 나타내는 데 사용되는 경우 러닝 의 수렴 보장이 여전히 유지됩니까? 함수 근사법을 사용할 때 Q- 러닝이 수렴되는 이유는 무엇입니까? 함수 근사법을 사용한 러닝 의 비 수렴에 대한 공식적인 증거가 있습니까? $Q$ $Q$ $Q$

나는 함수형 근사법을 사용할 때 - learning 의 비 수렴에 대한 직관을 제공하는 답변에서 공식적인 증거 (또는 공식적인 증거가있는 논문에 대한 링크)를 제공하는 답변에서 다른 유형의 답변을 찾고 있습니다 . $Q$

— nbro
소스

2

좋은 질문입니다!

— John Doucette

참조한 책은 11 장에서이 문제에 대해 이야기하므로 읽을 수 있습니다. 또한 왜 이런 일이 발생하는지에 대한 공식적인 증거는 없다고 생각하지만 간단한 환경 (예 : Tsitsiklis 및 van Roy)에서도 차이를 보여주는 예는 거의 없습니다.

— Brale

8

다음은 직관적 인 설명 답변입니다.

파라미터 근사화 기능을 사용하여 함수 근사를 수행 할 수 있습니다. 의 문제를 고려 $Q(s,a)$ 우주 어디 $s$ 긍정적 인 현실이고 $a$ 이다 $0$ 또는 $1$ 그리고 진정한 Q- 함수는 $Q(s, 0) = s^2$ , $Q(s, 1)= 2s^2$ 모든 주에 적용됩니다. 함수 근사값이 $Q(s, a) = m*s + n*a + b$ 사실을 정확하게 나타낼 수있는 매개 변수가 없습니다. $Q$ 함수 (선을 이차 함수에 맞추려고합니다). 결과적으로, 좋은 학습률을 선택하고 모든 주를 무한정 자주 방문하더라도 근사 함수는 절대로 수렴하지 않습니다. $Q$ 함수.

그리고 여기 좀 더 자세한 내용이 있습니다 :

신경망은 대략적인 기능을합니다. 복잡한 다항식을 사용하여 근사값을 구하면 함수를 더 크거나 더 적게 근사 할 수 있습니다. Taylor Series 근사법에 익숙하다면이 아이디어는 매우 자연스럽게 보일 것입니다. 그렇지 않다면 구간 [0- $\pi/2$ ). 직선으로 (나쁘게) 근사화 할 수 있습니다. 이차 곡선으로 더 잘 근사화 할 수 있습니다. 커브를 근사화하는 데 사용하는 다항식의 정도를 증가시킴으로써 커브에 더 적합한 것을 얻을 수 있습니다.
신경망은 보편적 인 함수 근사치 입니다. 즉, 함수가있는 경우 작성한 함수를 임의의 정확도로 근사 할 수있을 정도로 깊거나 넓은 신경망을 만들 수도 있습니다. 그러나 선택한 특정 네트워크 토폴로지 는 무한히 넓거나 깊이가 아니라면 모든 기능 을 학습 할 수 없습니다 . 이것은 올바른 매개 변수를 선택하면 선이 두 점에 맞을 수 있지만 세 점이 아닌 방법과 유사합니다. 특정 유한 너비 또는 깊이의 네트워크를 선택하면 항상 제대로 맞는 뉴런이 더 필요한 함수를 구성 할 수 있습니다.
Q- 러닝의 경계는 Q 함수의 표현이 정확한 경우에만 유지됩니다 . 이유를 확인하기 위해 선형 보간으로 Q 함수를 근사화하기로 선택했다고 가정하십시오. 실제 함수가 어떤 형태를 취할 수 있다면 XOR과 같은 Q 함수 함수를 구성하여 보간 오류를 무한대로 크게 만들 수 있으며 여분의 시간이나 데이터가 없어도이 오류를 줄일 수 있습니다 . 함수 근사기를 사용하고 실제 함수가 적합 하지 않은 경우함수가 임의로 근사 할 수있는 것이라면, 선택한 학습 속도와 탐색 속도로도 모델이 제대로 수렴되지 않습니다. 계산 학습 이론의 용어를 사용하여 Q- 학습에 대한 수렴 증명은 실제 Q- 함수가 모델을 선택할 가설 공간의 구성원이라고 암시 적으로 가정했다고 말할 수 있습니다.

— 존 두케
소스

내가 언급 한 증거에서 "Q- 학습의 표현이 정확한 경우에만 Q- 러닝의 한계가 유지된다"는 것을 어디에서 볼 수 있습니까?

— nbro

따라서 신경망 아키텍처를 사용하면 (합리적) 기능을 근사 할 수 있지만 고정 신경망 아키텍처를 고려할 때

Z

$Z$ (훈련 단계 시작시 선택해야합니다.

Q

$Q$ -배우기),

Q

$Q$ -러닝은 특정 아키텍처를 사용하여 수렴하지 않을 수 있습니다

Z

$Z$ , 때문에

Z

$Z$ 표현하기에 충분하지 않을 수 있습니다

Q^{*}

$Q^*$ .

— nbro

@nbro 증명은 명시 적으로 말하지 않지만 Q 함수의 정확한 표현을 가정합니다 (즉, 정확한 값은 모든 상태 / 조치 쌍에 대해 계산 및 저장 됨). 무한 상태 공간의 경우 최악의 경우에 정확한 표현이 무한대로 클 수 있음이 분명합니다 (간단한 예 : let Q (s, a) = sth pi of pi). 두 번째 의견은 잘 요약합니다. 보다 공식적으로, 실제 가설 Q *가 모델을 선택하는 가설 공간 H의 요소가 아닌 경우 무한 시간이나 데이터가 있더라도 Q *로 수렴 할 수 없습니다.

— John Doucette

4

내가 아는 한, 왜 우리가 수렴이 부족하거나 더 나쁜 경우에 발산의 위험이 생길 때 정확히 / 공식적으로 이해하는 것은 여전히 개방적인 문제입니다. 그것은 일반적으로 "치명적인 트라이어드" (Sutton과 Barto의 두 번째 판 11.3 참조)에 기인합니다 .

함수 근사, AND
부트 스트랩 핑 $Q$ 학습), 그리고
정책 외 교육 ( $Q$ -학습은 사실상 정책 외의 정책입니다.

그것은 우리에게 수렴이 부족하거나 발산의 위험이있는 경우에 대한 설명을 제공 할 뿐이지 만 그 이유가 무엇인지 는 아직 알려주지 않습니다 .

John의 답변은 이미 문제의 일부가 단순히 함수 근사법을 사용하면 함수 근사 기가 참으로 표현하기에 충분히 강력하지 않은 상황으로 쉽게 이어질 수 있다는 직관을 제공합니다. $Q^*$ 다른 함수 근사기로 전환하지 않고 제거 할 수없는 근사 오차가 항상있을 수 있습니다.

개인적으로, 나는이 직관이 알고리즘이 최적의 솔루션으로 수렴을 보장 할 수없는 이유를 이해하는 데 도움이된다고 생각하지만, 여전히 가능한 가장 가까운 근사치 인 "안정한"솔루션으로 "수렴"할 수있을 것으로 직관적으로 기대합니다. 선택된 함수 표현에 내재 된 제한 실제로 이것은 선형 함수 근사치의 경우에 정책 상 훈련 (예 : Sarsa)으로 전환 할 때 실제로 관찰하는 것입니다.

이 질문에 대한 나의 직관은 일반적으로 문제의 중요한 원인이 일반화라는 것이었다 . 표 설정에서 항목을 완전히 분리했습니다. $Q(s, a)$ 모든 $(s, a)$ 한 쌍. 한 항목에 대한 예상치를 업데이트 할 때마다 다른 모든 항목은 수정되지 않은 채로 둡니다 (최소한 초기에는 업데이트 규칙의 부트 스트랩으로 인해 향후 업데이트에서 다른 항목에 영향을 줄 수 있음). 다음과 같은 알고리즘에 대한 규칙 업데이트 $Q$ -Learning 우리는 "불운"얻는 경우에 사르 사 때로는 "잘못된"방향으로 업데이트 할 수 있지만, 기대에 , 그들은 일반적으로 올바른 "방향"으로 업데이트합니다. 직관적으로 이것은 표 설정 에서 예상 대로 다른 항목에 해를 끼치 지 않고 격리 된 항목의 오류를 천천히 점진적으로 수정 한다는 것을 의미 합니다.

함수 근사를 사용하면 업데이트 할 때 $Q(s, a)$ 하나를 추정하다 $(s, a)$ 쌍, 그것은 잠재적으로 영향을 미칠 수 있는 모든 우리의 다른 추정치를 모든 다른 국가 액션 쌍. 직관적으로 이것은 표 설정 에서처럼 더 이상 항목을 잘 격리하지 못하고 한 항목의 "고정"오류가 다른 항목에 새로운 실수를 추가 할 위험이 있음을 의미합니다. 그러나 John의 답변과 마찬가지로이 전체 직관은 실제로 정책 정책에도 적용되므로 여전히 특별한 점은 설명하지 않습니다. $Q$ -학습 (및 기타 정책 외 접근).

이 주제에 대한 매우 흥미로운 최근 논문은 비 망상 Q- 러닝 및 가치 반복 입니다. 함수 근사와 관련 업데이트 규칙을 결합한 알고리즘의 "망상 편향"문제를 지적합니다. $\max$ Q- 러닝과 같은 연산자 (아마도 $\max$ 운영자이지만, 일반적으로 정책 외 정책에 적용됩니까?).

문제는 다음과 같습니다. 우리가 이것을 실행한다고 가정 $Q$ 동작 쌍에 대한 학습 학습 업데이트 $(s, a)$ :

Q (s, a) \leftarrow Q (s, a) + α [max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a)] .

$Q(s, a) \gets Q(s, a) + \alpha \left[ \max_{a'} Q(s', a') - Q(s, a) \right].$

가치 추정 $\max_{a'} Q(s', a')$ 여기에 사용 된 것은 이전 버전의 욕심 많은 정책을 실행한다는 가정을 기반으로합니다. $Q$ 아마도 매우 긴 궤도에 대한 추정치. 이전 답변 중 일부에서 이미 설명한 것처럼 함수 근사 기는 표현 능력이 제한적이며 하나의 상태 동작 쌍에 대한 업데이트는 다른 상태 동작 쌍의 값 추정에 영향을 줄 수 있습니다. 이는 다음에 대한 업데이트를 트리거 한 후 $Q(s, a)$ , 우리의 기능 approximator는 더 이상 동시에 정책을 표현 할 수 없을 수 있다는 높은 수익률을 리드 우리 $\max_{a'} Q(s', a')$ 추정치는을 기준으로 합니다. 이 논문의 저자는 알고리즘이 "망상"이라고 말합니다. 그것은 줄을 넘어서도 여전히 큰 수익을 얻을 수 있다고 가정하여 업데이트를 수행하지만, 더 이상 실제로 새로운 버전의 함수 근 사기 매개 변수를 사용하여 그러한 수익을 얻을만큼 강력하지 않을 수 있습니다.

마지막으로,이 질문과 관련이 있다고 생각되는 다른 (더 최근의) 논문 은 Deep Q-learning Algorithms의 병목 현상 진단 이지만 불행히도 아직 충분히 자세하게 읽고 충분히 요약 할 시간이 없었습니다.

— 데니스 수메르
소스

1

그러나 특정 상태가 각각과 매우 유사하다는 가정 때문에 신경망을 사용하지 않습니까? 매우 유사한 상태 (예 : 게임의 연속 프레임)는 종종 매우 유사한 (또는 동일한) 최적 동작을 가지므로 첫 번째 논문의 설명이 유효한지 확실하지 않습니다 (주요 사항을 완전히 이해하려면 읽어야합니다).

— nbro

1

@nbro 네, 종종 일반화는 그 이유 때문에 정확하게 문제가 아니라 이점으로 간주됩니다 . 그것이 "의도 된"것으로 작동한다면, 우리는 우리가 배우는 모든 것을 고립 된 상태에서 약간 다른 모든 상태 / 행동에 대한 학습보다는 유사한 상태 / 유사한 행동으로 이전하기 때문에 매우 강력하고 학습 속도를 높일 수 있습니다. 그러나 그것은 또한 이론적으로뿐만 아니라 실제로도 문제를 야기 할 수 있습니다. 제가 생각하는 "양날의 칼"과 같습니다.

— Dennis Soemers

1

@DennisSoemers 매우 흥미로운 답변입니다. 비 망상 Q- 학습 요점은 많은 의미가 있습니다. 올바른 Q- 함수를 찾는 것은 업데이트 규칙에 대한 고정 점을 찾는 것을 의미하지만, 이러한 방식으로 생각하면 함수 근사가 Q- 러닝에서 주기적 업데이트로 이어질 수 있습니다.

— John Doucette