일반적인 보상 분배를위한 다중 무장 적기

보상 분배에 대한 정보가없는 다중 무기 산적 문제를 해결하고 있습니다.

나는 알려진 바운드가있는 배포판과 [0,1]에서 지원하는 일반적인 배포판에 대한 후회를 보증하는 많은 논문을 발견했다.

보상 배분이 지원에 대한 보증이없는 환경에서 잘 수행 할 수있는 방법이 있는지 알고 싶습니다. 비모수 공차 한계를 계산하려고 시도하고이 숫자를 사용하여 보상 분포를 조정하여이 백서에 지정된 알고리즘 2를 사용할 수 있습니다 ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). 누구 든지이 접근법이 효과가 있다고 생각합니까?

그렇지 않다면 누구든지 올바른 지점을 가리킬 수 있습니까?

무리 감사!

references multiarmed-bandit

— 손님
소스

$\mathcal{O}(\log(T))$ $\epsilon$

언급 한 간단한 톰슨 샘플링 알고리즘조차도 Bernoulli 분산 보상이 필요하며 심지어 로그 후회 바운드를 입증하는 데 80 년이 걸렸습니다!

$[0,1]$ $S$ $S$ $S:=2S$

또한 언급 한 Thompson 샘플링 알고리즘에는 Bernoulli 시험판이 필요하므로 임의의 지속적인 보상을 사용할 수 없습니다. 베타 대신 가우시안 사후 분포에 맞출 수 있지만, 이는 이전에 선택한 것에 약간 민감하므로 매우 평평하게 설정할 수 있습니다. 구현에 대해 아무것도 증명하지 않으려는 경우 아마도 잘 작동합니다.

— 페어리 독스
소스

답변 주셔서 감사합니다! 정말 감사! 나는 질문이 있었다. 필자가 언급 한 논문 (39.4 페이지 상단)의 알고리즘 2는 보상 분배에 대해 아무 것도 요구하지 않는다고 생각하지만 지원이 [0,1]에 있다는 사실은 사실입니다. 아마도 알고리즘 1을보고 있었습니까?

— 손님

그래, 세부 사항이 나를 탈출했다고 지적 해 주셔서 감사합니다. 실제 값을 Bernoulli 샘플로 변환하는 멋진 흥미로운 트릭입니다. 어쨌든 경계 변수가 여전히 필요하므로 언급 한 저렴한 이중 트릭 으로이 작업을 수행 하고이 버전의 Thompson 샘플링을 사용할 수 있습니다. 그러나 가우스 후자를 사용하는 방법을 작성하는 것이 좋습니다.

— fairidox

Gaussian 사후 분석법에 대해 더 자세히 살펴 보겠습니다. 그러나 Gaussian 측면에서 "평면"이란 무엇을 의미합니까? 베타 (1,1) (균일)와 같은 것에 해당한다고 가정합니다. 맞습니까?

— 손님

맞습니다. 그러나 경계가없는 도메인보다 먼저 균일 한 유니폼을 가질 수는 없습니다. 따라서 Gaussian 사후 모델을 사용하는 경우 이전에 Gaussian이있을 가능성이 높으므로 일반적으로 가능한 한 "평평한"또는 정보가없는 것으로 만들려고합니다. 이것은 일반적으로 분산을 가능한 한 크게 만드는 것을 의미합니다. 나는 전문가는 아니지만 당신이 조사하기 전에 정보가없고 잠재적으로 부적절한 것을 구성하는 방법에 대한 전체 연구 분야가 있습니다. 또한, 긍정적 인 보상이 있다면 다른 모델을 고려할 수도 있습니다.

— fairidox