통계 및 빅 데이터 multiarmed-bandit

3

가장 잘 알려진 산적 알고리즘은이 클래스의 알고리즘을 대중화 한 신뢰 상한 (UCB)입니다. 그 이후로 더 나은 알고리즘이 있다고 가정합니다. 현재 최고의 알고리즘은 무엇입니까 (경험적 성능 또는 이론적 한계 측면에서)? 이 알고리즘은 어떤 의미에서 최적입니까?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

4

우리는 어떤 종류의 실제 상황에서 다중 무기 산적 알고리즘을 사용할 수 있습니까?

다중 무기 산적은 선택이 있고 어느 쪽이 자신의 복지를 극대화 할 지 잘 모르는 상황에서 잘 작동합니다. 실제 상황에 따라 알고리즘을 사용할 수 있습니다. 예를 들어, 학습은 좋은 분야가 될 수 있습니다. 아이가 목공을 배우고 있고 그것에 나쁜 경우, 알고리즘은 아마 그 / 그녀가 계속 나아가 야한다고 알려줄 것입니다. 그가 …

15 algorithms reinforcement-learning multiarmed-bandit

1

맥락 적 산적을위한 비용 함수

문맥 적 문제 를 해결하기 위해 vowpal Wabbit 을 사용 하고 있습니다 . 사용자에게 광고를 게재하고 있으며 광고가 게재되는 상황 (예 : 사용자가 누구인지, 어떤 사이트에 있는지 등)에 대한 정보가 상당히 있습니다. 이것은 John Langford에 의해 설명 된 것처럼 매우 고전적인 맥락 적 산적 문제인 것 같습니다 . 내 상황에서 …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

평신도의 용어로 톰슨 샘플링은 무엇입니까?

Thompson Sampling 과 작동 방식 을 이해할 수 없습니다 . 나는 Multi Arm Bandit에 대해 읽었고 Upper Confidence Bound Algorithm을 읽은 후 Thompson Sampling이 UCB보다 성능이 우수하다고 많은 텍스트를 제안했습니다. 평신도 또는 간단한 용어로 Thompson Sampling이란 무엇입니까? 추가 이해를 위해 참조 기사를 자유롭게 제공하십시오.

14 machine-learning definition multiarmed-bandit

1

N-armed bandit 문제를 해결하기위한 최적의 알고리즘?

-greedy, softmax 및 UCB1과 같은 n-armed bandit 문제를 해결하기위한 많은 알고리즘에 대해 읽었지만 후회를 최소화하는 데 가장 적합한 방법을 정렬하는 데 문제가 있습니다.ϵϵ\epsilon n-armed bandit 문제를 해결하기 위해 알려진 최적의 알고리즘이 있습니까? 실제로 가장 성능이 좋은 것으로 보이는 알고리즘을 선택할 수 있습니까?

13 machine-learning reinforcement-learning multiarmed-bandit

1

일반적인 보상 분배를위한 다중 무장 적기

보상 분배에 대한 정보가없는 다중 무기 산적 문제를 해결하고 있습니다. 나는 알려진 바운드가있는 배포판과 [0,1]에서 지원하는 일반적인 배포판에 대한 후회를 보증하는 많은 논문을 발견했다. 보상 배분이 지원에 대한 보증이없는 환경에서 잘 수행 할 수있는 방법이 있는지 알고 싶습니다. 비모수 공차 한계를 계산하려고 시도하고이 숫자를 사용하여 보상 분포를 조정하여이 백서에 지정된 …

11 references multiarmed-bandit

«multiarmed-bandit» 태그된 질문