강화 학습 알고리즘에 대한 개요


9

나는 현재 강화 학습 알고리즘에 대한 개요와 그것들의 분류를 찾고 있습니다. 그러나 Sarsa와 Q-Learning + Deep Q-Learning 옆에는 인기있는 알고리즘을 찾을 수 없습니다.

Wikipedia 는 다른 일반적인 강화 학습 방법에 대한 개요를 제공하지만이 방법을 구현하는 다른 알고리즘에 대한 참조는 없습니다.

그러나 아마도 일반적인 접근법과 알고리즘을 혼동하고 있으며 기본적으로 다른 기계 학습 분야와 같이이 분야에는 실제 분류가 없습니다. 누군가 저에게 짧은 소개를 주거나 다른 접근법, 이들의 차이점 및이 접근법을 구현하는 예제 알고리즘을 읽을 수있는 참조 만 제공 할 수 있습니까?


답변:


14

여기 좋은 설문지가 있습니다 .

Q - 학습 방법에 추가의 빠른 요약으로도 대신 Q 기능을 학습, 당신이 직접 최선의 정책 학습 정책 기반 방법의 클래스가 사용에 있습니다.π

이러한 방법에는 널리 사용되는 REINFORCE 알고리즘이 있으며 이는 정책 그라디언트 알고리즘입니다. TRPO와 GAE는 유사한 정책 그라디언트 알고리즘입니다.

정책 그라디언트에는 많은 다른 변형이 있으며 액터 크리티컬 프레임 워크에서 Q- 러닝과 결합 될 수 있습니다. A3C 알고리즘 (비동기 우위 행위자 비평가)은 그러한 행위자 비평 알고리즘 중 하나이며 강화 학습에서 매우 강력한 기준선입니다.

최적의 제어 알고리즘의 출력을 모방 하여 최상의 정책 를 검색 할 수도 있습니다 .이를 가이드 정책 검색이라고합니다.π

알고리즘이 세계 모델을 유지하지 않는 모델 프리 설정에 적용되는 Q- 러닝 및 정책 그라디언트 외에도 세계 상태를 추정하는 모델 기반 방법도 있습니다. 이 모델은 훨씬 더 효율적으로 샘플을 얻을 수 있기 때문에 가치가 있습니다.

모델 기반 알고리즘은 정책 그라디언트 또는 Q- 러닝과 함께 제공되지 않습니다. 일반적인 접근 방식은 상태 추정을 수행하고 역학 모델을 학습 한 다음 추정 된 상태를 기반으로 정책을 학습하는 것입니다.

분류와 관련하여 하나의 분류는

  • Q 또는 V 기능 학습
  • 정책 기반 방법
  • 모델 기반

정책 기반 방법은 다음과 같이 세분화 될 수 있습니다.

  • 정책 그라디언트
  • 배우 비평가
  • 정책 검색
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.