강화 학습에서 교과서 / 강의 노트를 찾고 있습니다. 나는 "통계 학습 입문"을 좋아 하지만 불행히도이 주제를 다루지 않습니다. 나는 Sutton과 Barto의 저서가 표준 참고 자료이며 아마도 NDP 도 좋지만 1997-98 년 날짜였으며이 분야가 최근에 꽤 발전 할 가능성이 있기 때문에 더 현대적인 설명을 찾고자했습니다. 시각.
강화 학습에서 교과서 / 강의 노트를 찾고 있습니다. 나는 "통계 학습 입문"을 좋아 하지만 불행히도이 주제를 다루지 않습니다. 나는 Sutton과 Barto의 저서가 표준 참고 자료이며 아마도 NDP 도 좋지만 1997-98 년 날짜였으며이 분야가 최근에 꽤 발전 할 가능성이 있기 때문에 더 현대적인 설명을 찾고자했습니다. 시각.
답변:
Sutton과 Barto가 여전히 표준이라고 생각합니다. 온라인 AI 클래스의 슬라이드 데크와 메모가 많이 있지만 일반적으로 너무 자세하게 설명하지는 않습니다.
서튼과 바르 토는 약간 나이가 들었지만 교과서 2 판을 준비하고 있습니다. 2018 년 1 월 초안이 여기에 있습니다 . 그것은 Sutton의 웹 페이지 에서 링크되어 있으며 , 첫 번째 판의 전문을 가지고 있습니다.
그외에, 당신은 몇몇 논문으로 다이빙을 시도 할 수 있습니다-강화 학습 자료는 꽤 접근하기 쉬운 경향이 있습니다.
2010 년에 출판 된 Csaba Szepesvári의 강화 학습 알고리즘 을 확인하십시오 . PDF는 웹 사이트에서 다운로드 할 수 있습니다. 제 생각에는 Sutton 및 Barto보다 약간 기술적이지만 재료는 적습니다.
여기 좋은 교과서 / 참고 자료가 있습니다.
권위 있는
Sutton RS, Barto AG. 강화 학습 : 소개. 매사추세츠 케임브리지 : 브래드 포드 북; 1998. 322 p.
두 번째 버전의 초안은 무료로 제공됩니다 : https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
러셀 / 노비 그 21 화
Russell SJ, Norvig P, Davis E. 인공 지능 : 현대적인 접근 방식. 뉴저지 북부 새들 리버 : Prentice Hall; 2010.
더 기술적 인
강화 학습을위한 Szepesvári C. 알고리즘 인공 지능과 머신 러닝에 관한 종합 강의. 2010; 4 (1) : 1–103. http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP. 동적 프로그래밍 및 최적 제어. 제 4 판. 매사추세츠 주 벨몬트 : Athena Scientific; 2007. 1270 p. 6 장, vol 2는 무료로 제공됩니다 : http://web.mit.edu/dimitrib/www/dpchapter.pdf
보다 최근의 개발
Wiering M, van Otterlo M, 편집자. 강화 학습. 베를린, 하이델베르크 : Springer Berlin Heidelberg; 2012 이용 가능 : http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, JP, Reynolds HJD, Thornton JR 등. 불확실한 의사 결정 : 이론과 적용. 1 판. 케임브리지, 매사추세츠 : MIT Press; 2015. 352 p.
멀티 에이전트 강화 학습
Buşoniu L, Babuška R, Schutter BD. 다중 에이전트 강화 학습 : 개요. 에서 : Srinivasan D, Jain LC, 편집자. 다중 에이전트 시스템 및 애플리케이션의 혁신-1. 스프링거 베를린 하이델베르크; 2010 p. 183–221. http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7 에서 사용 가능
슈워츠 HM. 멀티 에이전트 머신 러닝 : 강화 접근법. 뉴저지 호보 켄 : 와일리; 2014.
비디오 / 코스
YouTube의 David Silver 코스도 제안하겠습니다. https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa
강화 학습에 대한 내가 가장 좋아하는 강의 노트는 ML CS229에 대한 스탠포드 과정에서 Andrew Ng의 강의입니다.
Reiforcment 학습 노트 Stanford CS229
iTunes에서 강의 비디오를 다운로드 할 수도 있습니다. 또는 YouTube에서는 다음 링크에서 시작합니다.