샘플 효율이란 무엇이며 중요도 샘플링을 사용하여이를 달성 할 수 있습니까?

예를 들어, 이 논문 의 제목은 "경험이 재생되는 샘플 효율적인 배우-비평가"입니다.

샘플 효율 이란 무엇이며 중요도 샘플링 을 사용하여이를 달성 할 수있는 방법은 무엇 입니까?

reinforcement-learning statistical-ai importance-sampling

— 고쿨 NC
소스

답변:

$100$

정책 외 학습의 경우 모든 표본이 우리가 관심있는 분포의 일부가 아니라는 점에서 유용하지는 않습니다. 중요도 샘플링이러한 샘플을 필터링하는 기술입니다. 원래 용도는 하나의 분포를 이해하는 동시에 다른 분포의 관련 분포에서만 표본을 추출 할 수있었습니다. RL에서, 이것은 종종 정책 외를 배우려고 할 때 나타납니다. 즉, 샘플은 일부 동작 정책에 의해 생성되지만 대상 정책을 배우고 싶습니다. 따라서, 생성 된 샘플이 목표 정책이 만들 수있는 샘플에 얼마나 중요 / 유사한지를 측정해야합니다. 따라서, 이들 "중요한"샘플을 선호하는 가중 분포로부터 샘플링하는 것이다. 그러나 중요한 것을 특성화하는 방법에는 여러 가지가 있으며 그 효과는 응용 프로그램에 따라 다를 수 있습니다.

이 정책 외 스타일의 중요도 샘플링에 대한 가장 일반적인 방법은 대상 정책에 의해 샘플이 생성 될 가능성의 비율을 찾는 것입니다. 용지 중요성 샘플링과 가능성 비율 정책 그라데이션 사이의 연결에 당나라에 의해 (2010)와 Abbeel이 항목을 다룹니다.

— 제이든 트라 브 니크
소스

다시 감사합니다. 기본 질문 : ..finding a ratio of how likely a sample is to be generated by the target policy행동 정책 만 알고 있다면 어떻게 결정합니까? 우리가 찾아야 할 정책을 목표로하지 않습니까?

— Gokul NC

목표 정책 pi의 비율을 찾아서 행동 정책에 대한 행동을 취함으로써이를 쉽게 추정 할 수있다. 따라서 비율은 P = pi (s, a) / mu (s, a)이며 여기서 a와 s는 각각 mu와 상태에 의해 선택된 동작입니다.

— Jaden Travnik

내 질문은 어디에서 pi (s, a)를 얻는 지, mu (s, a) 만 있는가? 즉, 목표 정책을 어디에서 얻을 수 있습니까? 목표를 찾는 것이 목표입니까?

— Gokul NC

대상 정책은 무작위로 초기화되며 업데이트 문제 일뿐입니다.

— Jaden Travnik

샘플 효율성은 특정 수준의 성능에 도달하기 위해 교육 중에 에이전트 / 알고리즘이 환경에서 생성해야하는 경험의 양 (예 : 수행되는 작업 수 및 결과 상태 수 + 관찰되는 보상 수)을 나타냅니다. 직관적으로, 알고리즘이 정책을 생성하고 빠르게 향상시키는 모든 경험을 잘 활용할 수 있다면 알고리즘이 샘플 효율적이라고 말할 수 있습니다. 알고리즘은 많은 경험 샘플에서 유용한 것을 배우지 못하고 빠르게 개선되지 않으면 샘플 효율성이 떨어집니다.

Jaden의 답변에서 중요도 샘플링에 대한 설명은 대부분 올바른 것으로 보입니다.

문제의 논문에서 중요도 샘플링은 1) 다단계 궤적으로부터의 학습과 2) 재생 버퍼 경험의 올바른 조합을 가능하게하는 성분 중 하나입니다. 이 두 가지 요소는 이전에 결합하기 쉽지 않았습니다 (중요도 샘플링이없는 다단계 수익률은 정책 정책 학습에서만 정확하고 재생 버퍼의 이전 샘플은 이전 정책에 의해 생성 되었기 때문에 학습이 정책 외임을 의미 함) ). 두 가지 모두 개별적으로 샘플 효율을 향상 시키므로, 어떻게 든 결합 될 수 있다면 샘플 효율에도 도움이됩니다.

— 데니스 수메르
소스