샘플 효율이란 무엇이며 중요도 샘플링을 사용하여이를 달성 할 수 있습니까?


답변:


14

100

정책 외 학습의 경우 모든 표본이 우리가 관심있는 분포의 일부가 아니라는 점에서 유용하지는 않습니다. 중요도 샘플링이러한 샘플을 필터링하는 기술입니다. 원래 용도는 하나의 분포를 이해하는 동시에 다른 분포의 관련 분포에서만 표본을 추출 할 수있었습니다. RL에서, 이것은 종종 정책 외를 배우려고 할 때 나타납니다. 즉, 샘플은 일부 동작 정책에 의해 생성되지만 대상 정책을 배우고 싶습니다. 따라서, 생성 된 샘플이 목표 정책이 만들 수있는 샘플에 얼마나 중요 / 유사한지를 측정해야합니다. 따라서, 이들 "중요한"샘플을 선호하는 가중 분포로부터 샘플링하는 것이다. 그러나 중요한 것을 특성화하는 방법에는 여러 가지가 있으며 그 효과는 응용 프로그램에 따라 다를 수 있습니다.

이 정책 외 스타일의 중요도 샘플링에 대한 가장 일반적인 방법은 대상 정책에 의해 샘플이 생성 될 가능성의 비율을 찾는 것입니다. 용지 중요성 샘플링과 가능성 비율 정책 그라데이션 사이의 연결에 당나라에 의해 (2010)와 Abbeel이 항목을 다룹니다.


2
다시 감사합니다. 기본 질문 : ..finding a ratio of how likely a sample is to be generated by the target policy행동 정책 만 알고 있다면 어떻게 결정합니까? 우리가 찾아야 할 정책을 목표로하지 않습니까?
Gokul NC

1
목표 정책 pi의 비율을 찾아서 행동 정책에 대한 행동을 취함으로써이를 쉽게 추정 할 수있다. 따라서 비율은 P = pi (s, a) / mu (s, a)이며 여기서 a와 s는 각각 mu와 상태에 의해 선택된 동작입니다.
Jaden Travnik

1
내 질문은 어디에서 pi (s, a)를 얻는 지, mu (s, a) 만 있는가? 즉, 목표 정책을 어디에서 얻을 수 있습니까? 목표를 찾는 것이 목표입니까?
Gokul NC

1
대상 정책은 무작위로 초기화되며 업데이트 문제 일뿐입니다.
Jaden Travnik

5

샘플 효율성은 특정 수준의 성능에 도달하기 위해 교육 중에 에이전트 / 알고리즘이 환경에서 생성해야하는 경험의 양 (예 : 수행되는 작업 수 및 결과 상태 수 + 관찰되는 보상 수)을 나타냅니다. 직관적으로, 알고리즘이 정책을 생성하고 빠르게 향상시키는 모든 경험을 잘 활용할 수 있다면 알고리즘이 샘플 효율적이라고 말할 수 있습니다. 알고리즘은 많은 경험 샘플에서 유용한 것을 배우지 못하고 빠르게 개선되지 않으면 샘플 효율성이 떨어집니다.

Jaden의 답변에서 중요도 샘플링에 대한 설명은 대부분 올바른 것으로 보입니다.

문제의 논문에서 중요도 샘플링은 1) 다단계 궤적으로부터의 학습과 2) 재생 버퍼 경험의 올바른 조합을 가능하게하는 성분 중 하나입니다. 이 두 가지 요소는 이전에 결합하기 쉽지 않았습니다 (중요도 샘플링이없는 다단계 수익률은 정책 정책 학습에서만 정확하고 재생 버퍼의 이전 샘플은 이전 정책에 의해 생성 되었기 때문에 학습이 정책 외임을 의미 함) ). 두 가지 모두 개별적으로 샘플 효율을 향상 시키므로, 어떻게 든 결합 될 수 있다면 샘플 효율에도 도움이됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.