여기 좋은 설문지가 있습니다 .
Q - 학습 방법에 추가의 빠른 요약으로도 대신 Q 기능을 학습, 당신이 직접 최선의 정책 학습 정책 기반 방법의 클래스가 사용에 있습니다.π
이러한 방법에는 널리 사용되는 REINFORCE 알고리즘이 있으며 이는 정책 그라디언트 알고리즘입니다. TRPO와 GAE는 유사한 정책 그라디언트 알고리즘입니다.
정책 그라디언트에는 많은 다른 변형이 있으며 액터 크리티컬 프레임 워크에서 Q- 러닝과 결합 될 수 있습니다. A3C 알고리즘 (비동기 우위 행위자 비평가)은 그러한 행위자 비평 알고리즘 중 하나이며 강화 학습에서 매우 강력한 기준선입니다.
최적의 제어 알고리즘의 출력을 모방 하여 최상의 정책 를 검색 할 수도 있습니다 .이를 가이드 정책 검색이라고합니다.π
알고리즘이 세계 모델을 유지하지 않는 모델 프리 설정에 적용되는 Q- 러닝 및 정책 그라디언트 외에도 세계 상태를 추정하는 모델 기반 방법도 있습니다. 이 모델은 훨씬 더 효율적으로 샘플을 얻을 수 있기 때문에 가치가 있습니다.
모델 기반 알고리즘은 정책 그라디언트 또는 Q- 러닝과 함께 제공되지 않습니다. 일반적인 접근 방식은 상태 추정을 수행하고 역학 모델을 학습 한 다음 추정 된 상태를 기반으로 정책을 학습하는 것입니다.
분류와 관련하여 하나의 분류는
- Q 또는 V 기능 학습
- 정책 기반 방법
- 모델 기반
정책 기반 방법은 다음과 같이 세분화 될 수 있습니다.