인공 지능 웹 사이트는 정책 외 및 정책 외 학습을 다음과 같이 정의합니다.
"외교 정책 학습자는 상담원의 행동과 독립적으로 최적 정책의 가치를 학습합니다. Q- 학습은 정책 외 학습자입니다. 정책 외 학습자는 탐구 단계를 포함하여 상담원이 수행하는 정책의 가치를 학습합니다 "
그들이 나에게 아무런 영향을 미치지 않는 것 같아서 이것에 관해 당신의 설명을 부탁하고 싶습니다. 두 정의가 모두 동일한 것 같습니다. 내가 실제로 이해 한 것은 모델이없는 모델 기반 학습이며, 문제가있는 학습과 관련이 있는지 모르겠습니다.
상담원의 행동과는 별도로 최적의 정책을 배우는 것이 어떻게 가능합니까? 에이전트가 작업을 수행 할 때 정책이 학습되지 않습니까?