최고의 산적 알고리즘?


27

가장 잘 알려진 산적 알고리즘은이 클래스의 알고리즘을 대중화 한 신뢰 상한 (UCB)입니다. 그 이후로 더 나은 알고리즘이 있다고 가정합니다. 현재 최고의 알고리즘은 무엇입니까 (경험적 성능 또는 이론적 한계 측면에서)? 이 알고리즘은 어떤 의미에서 최적입니까?

답변:


25

NIPS 2011의 논문 ( "톰슨 샘플링의 실험적 평가")은 실험에서 톰슨 샘플링이 UCB를 능가한다는 것을 보여줍니다. UCB는 낙관적 가정 하에서 가장 높은 보상을 약속하는 레버를 선택하는 것을 기반으로합니다 (예 : 예상 보상에 대한 추정치의 편차가 높으므로 잘 모르는 레버를 당깁니다). 대신에, 톰슨 샘플링은 완전히 베이지안입니다 : 그것은 사후 분포로부터 산적 구성 (즉, 예상 보상 벡터)을 생성 한 다음 이것이 실제 구성 인 것처럼 행동합니다 (즉, 예상 보상이 가장 높은 레버를 당깁니다).

Thompson 샘플링의 일반화 인 Bayesian 제어 규칙 ( " 학습 및 행동을위한 최소 상대 엔트로피 원리 ", JAIR)은 정보 이론적 원리와 인과성으로부터 Thompson 샘플링을 도출합니다. 특히, 베이지안 제어 규칙은 전략과 (알 수없는) 최적 전략 사이의 KL을 최소화하고 인과 적 제약 조건을 고려할 때 최적 전략입니다. 이것이 중요한 이유는 이것이 행동에 대한 베이지안 추론의 확장으로 볼 수 있기 때문입니다. 베이지안 추론은 성과 기준이 추정기와 (알 수없는) 실제 분포 사이의 KL 일 때 최적의 예측 전략으로 보일 수 있습니다.


16

UCB는 확률 론적 경우 (T 라운드 게임의 경우 최대 로그 T 계수까지)에 거의 최적이며,보다 문제 의존적 인 의미에서 Pinsker 불평등의 격차까지 있습니다. Audibert와 Bubeck 의 최근 논문은 최악의 경우에이 로그 의존성을 제거하지만, 다른 무기가 잘 분리 된 보상을 가질 때 유리한 경우에는 더 나쁜 경계를 가지고 있습니다.

일반적으로 UCB는 더 큰 알고리즘 제품군의 후보입니다. 게임의 어느 시점에서든, "실격 처리되지 않은"즉, 신뢰 상한이 일부 팔의 신뢰 하한보다 작지 않은 모든 무기를 볼 수 있습니다. 그러한 자격을 갖춘 무기의 분포에 따른 피킹은 유효한 전략을 구성하며 상수까지 비슷한 후회를 얻습니다.

경험적으로, 나는 많은 다른 전략들에 대한 중요한 평가가 있다고 생각하지 않지만, UCB가 종종 꽤 좋다고 생각합니다.

가장 최근의 연구는 확률 적 보상이있는 간단한 K-arm 환경을 넘어서 적대 문제를 부가 정보가 있거나없는 매우 큰 (또는 무한한) 행동 공간으로, 확률 적이거나 적대적인 피드백을받는 것에 초점을 맞추고있다. 성능 기준이 다른 시나리오 (예 : 최상의 무기 식별 만)에서도 작업이있었습니다.


4

최신 기술을 다음과 같이 요약 할 수 있습니다.

  • 아르 자형=영형(케이로그Δ)
  • 아르 자형~=영형(케이로그케이)
  • 상황에 맞는 : 복잡하다

케이Δ

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.