강화 학습에 대한 Andrew Ng의 강의 노트 를 읽고 있는데 , 정책 반복이 최적의 가치 함수 및 최적의 정책으로 수렴 된 이유를 이해하려고했습니다..
정책 반복 회수는 다음과 같습니다.
욕심 많은 알고리즘이 최적의 정책과 최적의 가치 함수로 이어지는 이유는 무엇입니까? (욕심 많은 알고리즘이 항상이를 보장하지는 않으며 지역 옵티마에 갇힐 수 있으므로 알고리즘의 최적성에 대한 증거를보고 싶었습니다).
또한 정책 반복은 클러스터링 또는 그라데이션 하강과 비슷한 것으로 보입니다. 현재 파라미터 설정으로 클러스터링을 최적화합니다. 그라디언트 디센트와 비슷하지만 일부 기능을 증가시키는 것으로 보이는 값을 선택하기 때문입니다. 이 두 가지 방법이 항상 최적의 최대 값으로 수렴되는 것은 아니며이 알고리즘이 이전에 언급 한 것과 어떻게 다른지 이해하려고했습니다.
이것들은 지금까지 내 생각입니다.
일부 정책 으로 시작한 다음 첫 번째 단계 후에 고정 정책에 대해 다음과 같이 말합니다.
여기서 V ^ {(1)}은 첫 번째 반복에 대한 값 함수입니다. 그런 다음 두 번째 단계 후에 값을 늘리기 위해 새로운 정책 를 선택합니다 . 이제 새로운 정책 알고리즘의 두 번째 단계를 수행하면 다음과 같은 불평등이 발생합니다.
두 번째 단계에서 를 선택 하여 이전 단계에서 값 함수를 증가시킵니다 (즉, 개선 . 지금까지 를 선택 하면 V ^ {(1)} 만 증가 할 수 있다는 것이 분명합니다 . 선택하는 방법이기 때문에 반복 단계에서 혼란 . 반복하고 1 단계로 돌아 가면 새로운 정책 대해 를 다시 계산하기 때문에 실제로는 완전히 변경 됩니다. 다음을 제공합니다.
그러나 그것은 아닙니다 :
가 새로운 아닌 개선을 위해 선택 되었기 때문에 문제가되는 것 같습니다 . 기본적으로 문제는 가 를 수행하여 를 것입니다. 의 값 함수 인 경우 . 그러나 반복 단계에서 을 로 변경하지만 가 계산 될 때 가 계산되어 값 함수가 각 반복에서 단조롭게 향상되는 것을 보장하는 방법을 알 수 없습니다 가치 함수는그러나 1 단계는 을 ( 는 이전 값 함수 만 개선 했기 때문에 ).