N-armed bandit 문제를 해결하기위한 최적의 알고리즘?

-greedy, softmax 및 UCB1과 같은 n-armed bandit 문제를 해결하기위한 많은 알고리즘에 대해 읽었지만 후회를 최소화하는 데 가장 적합한 방법을 정렬하는 데 문제가 있습니다. $\epsilon$

n-armed bandit 문제를 해결하기 위해 알려진 최적의 알고리즘이 있습니까? 실제로 가장 성능이 좋은 것으로 보이는 알고리즘을 선택할 수 있습니까?

machine-learning reinforcement-learning multiarmed-bandit

— JS01
소스

아마도 위키피디아 페이지에서 그렇게 말할 것이고 실험적인 소스 포지 페이지

— Henry

이론적 인 컴퓨터 과학 SE에 있지 않아야합니까?

@mbq 강화 학습은 기계 학습의 한 지점이기 때문에 그렇게 생각하지 않습니다.)

— steffen

@ 스티븐 물론, 그 이름은 "tcsy"로 보였다.

@mbq 나는 그것을 얻지 못한다. "tscy"는 무엇을 의미합니까?

— steffen

최근에 찾은 두 가지 조사 보고서가 있습니다. 아직 읽지 않았지만 초록은 유망합니다.

Joann`s Vermorel and Mehryar Mohri : 다중 무기 산적 알고리즘 및 경험적 평가 (2005)

초록에서 :

도박꾼의 다중 무기 산적 문제는 일련의 시련에서 총 보상을 극대화하기 위해 K 슬롯 머신의 팔을 뽑는 것입니다. 많은 실제 학습 및 최적화 문제를 이러한 방식으로 모델링 할 수 있습니다. 지난 20 년 동안이 문제에 대한 해결책으로 몇 가지 전략이나 알고리즘이 제안되었지만, 우리가 아는 한 이러한 알고리즘에 대한 일반적인 평가는 없었습니다.

Volodymyr Kuleshov와 Doina Precup : 다중 무기 산적 문제에 대한 알고리즘 (2000) 초록에서 :

둘째, 대부분의 알고리즘의 성능은 적기 문제의 매개 변수에 따라 크게 달라집니다. 우리의 연구는 각 알고리즘에 대해 잘 수행되는 설정과 제대로 수행하지 않는 설정을 식별합니다.

— 스티 펜
소스