다중 무기 산적은 선택이 있고 어느 쪽이 자신의 복지를 극대화 할 지 잘 모르는 상황에서 잘 작동합니다. 실제 상황에 따라 알고리즘을 사용할 수 있습니다. 예를 들어, 학습은 좋은 분야가 될 수 있습니다. 아이가 목공을 배우고 있고 그것에 나쁜 경우, 알고리즘은 아마 그 / 그녀가 계속 나아가 야한다고 알려줄 것입니다. 그가 …
문맥 적 문제 를 해결하기 위해 vowpal Wabbit 을 사용 하고 있습니다 . 사용자에게 광고를 게재하고 있으며 광고가 게재되는 상황 (예 : 사용자가 누구인지, 어떤 사이트에 있는지 등)에 대한 정보가 상당히 있습니다. 이것은 John Langford에 의해 설명 된 것처럼 매우 고전적인 맥락 적 산적 문제인 것 같습니다 . 내 상황에서 …
Thompson Sampling 과 작동 방식 을 이해할 수 없습니다 . 나는 Multi Arm Bandit에 대해 읽었고 Upper Confidence Bound Algorithm을 읽은 후 Thompson Sampling이 UCB보다 성능이 우수하다고 많은 텍스트를 제안했습니다. 평신도 또는 간단한 용어로 Thompson Sampling이란 무엇입니까? 추가 이해를 위해 참조 기사를 자유롭게 제공하십시오.
-greedy, softmax 및 UCB1과 같은 n-armed bandit 문제를 해결하기위한 많은 알고리즘에 대해 읽었지만 후회를 최소화하는 데 가장 적합한 방법을 정렬하는 데 문제가 있습니다.ϵϵ\epsilon n-armed bandit 문제를 해결하기 위해 알려진 최적의 알고리즘이 있습니까? 실제로 가장 성능이 좋은 것으로 보이는 알고리즘을 선택할 수 있습니까?
보상 분배에 대한 정보가없는 다중 무기 산적 문제를 해결하고 있습니다. 나는 알려진 바운드가있는 배포판과 [0,1]에서 지원하는 일반적인 배포판에 대한 후회를 보증하는 많은 논문을 발견했다. 보상 배분이 지원에 대한 보증이없는 환경에서 잘 수행 할 수있는 방법이 있는지 알고 싶습니다. 비모수 공차 한계를 계산하려고 시도하고이 숫자를 사용하여 보상 분포를 조정하여이 백서에 지정된 …