강화 학습에서 정책 반복 과 가치 반복 의 차이점은 무엇 입니까?
내가 아는 한 가치 반복에서는 Bellman 방정식을 사용하여 최적의 정책을 해결하는 반면, 정책 반복에서는 무작위로 정책 π를 선택하고 해당 정책의 보상을 찾습니다.
내 의심은 PI에서 임의의 정책 π를 선택하는 경우 여러 임의의 정책을 선택하더라도 어떻게 최적의 정책이 보장됩니까?
강화 학습에서 정책 반복 과 가치 반복 의 차이점은 무엇 입니까?
내가 아는 한 가치 반복에서는 Bellman 방정식을 사용하여 최적의 정책을 해결하는 반면, 정책 반복에서는 무작위로 정책 π를 선택하고 해당 정책의 보상을 찾습니다.
내 의심은 PI에서 임의의 정책 π를 선택하는 경우 여러 임의의 정책을 선택하더라도 어떻게 최적의 정책이 보장됩니까?
답변:
나란히 살펴 보겠습니다. 비교를위한 주요 부분이 강조 표시됩니다. 수치는 Sutton과 Barto의 책 : 강화 학습 : 소개에서 발췌 한 것 입니다.
내 경험상 정책 이 가치 함수보다 더 빨리 수렴하기 때문에 정책 반복 이 가치 반복 보다 빠릅니다 . 나는 이것이 책에도 설명되어 있음을 기억합니다.
나는 혼동이 주로이 모든 다소 유사한 용어에서 비롯된 것 같으며, 이는 이전에도 나를 혼동했습니다.
에서 정책의 반복 알고리즘은 임의의 정책을 시작, 다음, 다음, 이전 값 기능을 기반으로 새 (개선) 정책을 찾을 수 등 해당 정책 (정책 평가 단계)의 값 기능을 찾을 수 있습니다. 이 과정에서 각 정책은 이전 정책보다 엄격한 개선이 보장됩니다 (이미 최적 상태 인 경우 제외). 정책이 주어지면 해당 값 함수는 Bellman 연산자 를 사용하여 얻을 수 있습니다 .
값 반복 에서는 임의 값 함수로 시작한 다음 최적 값 함수에 도달 할 때까지 반복 프로세스에서 새로운 (개선 된) 값 함수를 찾습니다. 최적 값 함수에서 최적의 정책을 쉽게 도출 할 수 있습니다. 이 프로세스는 최적 성 Bellman 연산자를 기반으로합니다 .
어떤 의미에서 두 알고리즘은 동일한 작동 원리를 공유하며 일반화 된 정책 반복 의 두 가지 경우로 볼 수 있습니다 . 그러나 최적 성 Bellman 연산자에는 비선형이므로 다른 기능 이있는 max 연산자가 포함되어 있습니다. 또한 순수 값 반복과 순수 정책 반복간에 하이브리드 방법을 사용할 수 있습니다.
기본적인 차이점은-
에서 정책 반복 - 당신은 무작위로 정책을 선택하고에 해당하는 값 기능을 발견하고 이전 값 기능을 기반으로 새 (개선) 정책을 찾을 수 있습니다, 그래서 이것에 최적의 정책으로 이어질 것입니다.
에서 값 반복 - 당신은 무작위로 다음 값 기능을 선택하는 최적 값 함수의 다음 파생 최적의 정책 최적의 값 기능에 도달 할 때까지, 반복적 인 과정에서 새로운 (개선) 값 기능을 찾을 수 있습니다.
정책 반복은“정책 평가 —-> 정책 개선”원칙에 따라 작동합니다.
가치 반복은“최적 가치 기능 —-> 최적 정책”의 원칙에 따라 작동합니다.
내가 아는 한 @zyxue의 아이디어와는 달리 VI는 일반적으로 PI보다 훨씬 빠릅니다 .
이미 알고 있듯이 그 이유는 매우 간단합니다. Bellman Equation은 주어진 정책에 대한 값 함수를 해결하는 데 사용됩니다. 최적의 정책에 대한 가치 함수를 직접 해결할 수 있기 때문에 현재 정책에 대한 가치 함수를 해결하는 것은 분명히 시간 낭비입니다.
PI의 수렴성에 대한 질문은 각 정보 상태에 대한 전략을 개선하면 게임 전체에 대한 전략이 개선된다는 사실을 간과 할 수 있다고 생각합니다. Counterfactual Regret Minimization에 익숙하다면 증명하기 쉽습니다. 각 정보 상태에 대한 후회의 합이 전체 후회의 상한을 형성하므로 각 상태에 대한 후회를 최소화하면 전반적인 후회가 최소화됩니다. 최적의 정책으로 이어집니다.