다음은 여름에 진행 한 온라인 학습 / 적기 문제의 추상화입니다. 나는 전에 이와 같은 문제를 보지 못했고 꽤 흥미로워 보인다. 관련 작업에 대해 알고 있다면 참조 해 주셔서 감사합니다.
문제 설정은 다중 무기 적기의 설정입니다. 당신은 N 개의 무기를 가지고 있습니다. 각 팔 i는 보상을 통해 알 수는 없지만 고정 된 확률 분포를 가지고 있으며,이를 통해 얻을 수 있습니다. 구체적으로, 각 팔 i 는 확률 p [i]로 $ 10를 보상하고 prob로 $ 0를 보상 한다고 가정합시다 . 1-p [i] .
모든 라운드 t에서 당신 은 플레이 할 팔의 S [t] 를 선택합니다 . 선택한 각 팔에 대해 선불 $ 1 를 지불합니다 . 선택한 각 팔에 대해 해당 팔의 (알 수없는) 보상 확률 분포에서 얻은 보상을 수집합니다. 모든 보상은 귀하의 은행 계좌로 입금되며 모든 수수료는 해당 계좌에서 공제됩니다. 또한 1 달러 의 크레딧을받습니다 매 반복이 시작될 때마다 .
문제는 음이 아닌 계정 잔액을 유지해야한다는 제약 조건에 따라 충분히 긴 기간 동안 수익을 극대화하기 위해 각 반복에서 재생할 하위 세트를 선택하는 정책을 개발하는 것입니다 항상.
나는 팔당 보상 분배가 이전 분배에서 선택되는지 또는 적에 의해 선택되는지를 지정하지 않았습니다. 두 가지 선택 모두 의미가 있습니다. 적의 공식은 나에게 더 매력적이지만, 진전을 이루기가 더 어려울 것입니다. 여기서 대적은 분포의 벡터 (D1, D2, .., DN)를 선택합니다. 분배를 고려할 때, 최적의 예산 균형 정책은 예상 보상이 $ 1보다 큰 모든 무기를 사용하는 것입니다. P가이 최적 전지구 적 정책의 단계적 이익이라고하자. 온라인 정책이이 전능 한 정책으로 후회 (즉, 기간 T에 따른 이익 손실)를 최소화하기를 원합니다.