답변:
정책 외 학습의 경우 모든 표본이 우리가 관심있는 분포의 일부가 아니라는 점에서 유용하지는 않습니다. 중요도 샘플링이러한 샘플을 필터링하는 기술입니다. 원래 용도는 하나의 분포를 이해하는 동시에 다른 분포의 관련 분포에서만 표본을 추출 할 수있었습니다. RL에서, 이것은 종종 정책 외를 배우려고 할 때 나타납니다. 즉, 샘플은 일부 동작 정책에 의해 생성되지만 대상 정책을 배우고 싶습니다. 따라서, 생성 된 샘플이 목표 정책이 만들 수있는 샘플에 얼마나 중요 / 유사한지를 측정해야합니다. 따라서, 이들 "중요한"샘플을 선호하는 가중 분포로부터 샘플링하는 것이다. 그러나 중요한 것을 특성화하는 방법에는 여러 가지가 있으며 그 효과는 응용 프로그램에 따라 다를 수 있습니다.
이 정책 외 스타일의 중요도 샘플링에 대한 가장 일반적인 방법은 대상 정책에 의해 샘플이 생성 될 가능성의 비율을 찾는 것입니다. 용지 중요성 샘플링과 가능성 비율 정책 그라데이션 사이의 연결에 당나라에 의해 (2010)와 Abbeel이 항목을 다룹니다.
샘플 효율성은 특정 수준의 성능에 도달하기 위해 교육 중에 에이전트 / 알고리즘이 환경에서 생성해야하는 경험의 양 (예 : 수행되는 작업 수 및 결과 상태 수 + 관찰되는 보상 수)을 나타냅니다. 직관적으로, 알고리즘이 정책을 생성하고 빠르게 향상시키는 모든 경험을 잘 활용할 수 있다면 알고리즘이 샘플 효율적이라고 말할 수 있습니다. 알고리즘은 많은 경험 샘플에서 유용한 것을 배우지 못하고 빠르게 개선되지 않으면 샘플 효율성이 떨어집니다.
Jaden의 답변에서 중요도 샘플링에 대한 설명은 대부분 올바른 것으로 보입니다.
문제의 논문에서 중요도 샘플링은 1) 다단계 궤적으로부터의 학습과 2) 재생 버퍼 경험의 올바른 조합을 가능하게하는 성분 중 하나입니다. 이 두 가지 요소는 이전에 결합하기 쉽지 않았습니다 (중요도 샘플링이없는 다단계 수익률은 정책 정책 학습에서만 정확하고 재생 버퍼의 이전 샘플은 이전 정책에 의해 생성 되었기 때문에 학습이 정책 외임을 의미 함) ). 두 가지 모두 개별적으로 샘플 효율을 향상 시키므로, 어떻게 든 결합 될 수 있다면 샘플 효율에도 도움이됩니다.
..finding a ratio of how likely a sample is to be generated by the target policy
행동 정책 만 알고 있다면 어떻게 결정합니까? 우리가 찾아야 할 정책을 목표로하지 않습니까?