워렌 버핏 문제


19

다음은 여름에 진행 한 온라인 학습 / 적기 문제의 추상화입니다. 나는 전에 이와 같은 문제를 보지 못했고 꽤 흥미로워 보인다. 관련 작업에 대해 알고 있다면 참조 해 주셔서 감사합니다.

문제 설정은 다중 무기 적기의 설정입니다. 당신은 N 개의 무기를 가지고 있습니다. 각 팔 i는 보상을 통해 알 수는 없지만 고정 된 확률 분포를 가지고 있으며,이를 통해 얻을 수 있습니다. 구체적으로, 각 팔 i 는 확률 p [i]로 $ 10를 보상하고 prob로 $ 0를 보상 한다고 가정합시다 . 1-p [i] .

모든 라운드 t에서 당신 은 플레이 할 팔의 S [t] 를 선택합니다 . 선택한 각 팔에 대해 선불 $ 1 를 지불합니다 . 선택한 각 팔에 대해 해당 팔의 (알 수없는) 보상 확률 분포에서 얻은 보상을 수집합니다. 모든 보상은 귀하의 은행 계좌로 입금되며 모든 수수료는 해당 계좌에서 공제됩니다. 또한 1 달러 의 크레딧을받습니다 매 반복이 시작될 때마다 .

문제는 음이 아닌 계정 잔액을 유지해야한다는 제약 조건에 따라 충분히 긴 기간 동안 수익을 극대화하기 위해 각 반복에서 재생할 하위 세트를 선택하는 정책을 개발하는 것입니다 항상.

나는 팔당 보상 분배가 이전 분배에서 선택되는지 또는 적에 의해 선택되는지를 지정하지 않았습니다. 두 가지 선택 모두 의미가 있습니다. 적의 공식은 나에게 더 매력적이지만, 진전을 이루기가 더 어려울 것입니다. 여기서 대적은 분포의 벡터 (D1, D2, .., DN)를 선택합니다. 분배를 고려할 때, 최적의 예산 균형 정책은 예상 보상이 $ 1보다 큰 모든 무기를 사용하는 것입니다. P가이 최적 전지구 적 정책의 단계적 이익이라고하자. 온라인 정책이이 전능 한 정책으로 후회 (즉, 기간 T에 따른 이익 손실)를 최소화하기를 원합니다.


최선의 정책은 모든 라운드에서 예상 보상이 $ 1보다 큰 모든 무기를 플레이하는 것입니까? 음이 아닌 계정 잔액을 항상 유지해야하는 엄격한 제약 조건이있는 경우 플레이가 허용되지 않는 라운드가있을 수 있습니다.
Matthias

그래서 당신은 보상 확률을 모르지만, 당신은 각각의 개별 팔에서 보상을 말할 수 있습니까?
David Thornley

당신은 확률을 알지 못하고 예상되는 보상을 모른다. 내가 비교하고자하는 전지전능 한 "최적"정책은 전지전능하기 때문에 모든 무기를 1보다 큰 보상으로 사용할 수 있습니다.
Martin Pál

1
나는 반올림 후에는 예상 수입을 최적의 일정한 요소 내에서 얻을 수 있으며, 그 후에 문제가 특이한 특성을 대부분 잃어 버린 것처럼 보입니다. Ω ( N )의 하한은 팔이 0이 아닌 페이 오프를 갖는 인스턴스에서 따릅니다. 즉시 상한이 표시되지 않습니다. Θ(N)Ω(N)
워렌 슈디

수정 : 반올림 후에 는 항상 최적의 수입의 일정한 요소 내에서 보장받을 수 없습니다. 그러나 적어도 2 달러의 수익을 기대하는 무기에서 얻을 수있는 소득에 대한 보증을받을 수 있습니다. Θ(N)
워렌 슈디

답변:


13

나는이 문제에 대해 가능한 많은 접근법이 있다고 생각합니다 (많은 것들이 당신이 생각한다고 확신합니다)-여기 몇 가지 아이디어 / 참조가 있습니다.

  • 이것을 N으로 재생할 수 있습니다N 독립적 인 병렬 싱글 암 산적 게임 , 각 팔을 독립적으로 당기거나 당기지 않기로 결정합니다. 보상이 독립적으로 배포되는 경우 특히 효과적입니다.
  • 각 무기 세트가 새 무기가되도록하고 Exp3 유형 알고리즘을 실행하십시오. 이것은 후회를 제공합니다.O(2N/2T1/2)
  • 다가오는 NIPS 2010 논문에서 Saten Kale, Rob Schapire 및 저는 한 번에 슬레이트를하는 사례를 고려 합니다. 그러나 우리의 작업에서 슬레이트의 크기는 고정되어 있습니다. 이 백서에서도 비슷한 문제를 고려합니다. 또 다른 유사한 작품 아마도 ALT 2010 년 아이디어 전송의 일부에 출연했다.
  • 당신은 전문가의 문제로 취급하는 경우 (각 전문가의 다른 하나의 권장 한 전문가에 따라, 당신은 사용하여 풀에 팔을 자신의 선택에 비어 있지 않은 교차로가 다른 전문가의 성능을 평가받을 수, 서브 세트) 중요성 가중치 . Exp4 유형 분석으로 O ( N 2N후회하지만O(2NT)실행 시간.O(NT)O(2NT)

아래 편집 :

예산 제약 ( 이하로 떨어지지 않음 )으로 인해 문제를 다루기 어려운 것으로 보입니다 . 예산이 1이라고 가정하십시오 . 대적은 무기 중 하나가 항상 돈을 지불하고 나머지는 결코 돈을 지불하지 못하게 할 수 있습니다. WP는 그래서 ( N - 1 ) / n은 첫 번째 라운드에서 가슴을 갈 최적의 전략을 느끼는 동안 T의 후 달러를 T의 라운드. 따라서 당신의 예상 후회는 적어도 ( n - 1 ) T / n입니다01(n1)/nTT(n1)T/n 이며 높은 확률 한계를 기대할 수는 없습니다.

또한 이것은 초기 예산에 효과가있는 것으로 보입니다. 달러로 시작한다고 가정 해보십시오 . 그러면 적은 한 팔을 제외한 모든 무기에 0 을 지불 하고 한 팔은 2 B wp 1 / B 와 같은 것을 지불 하도록 설정할 수 있습니다 . 가능한 지불금 한도 및 초기 예산이 충분하다면 흥미로운 문제가 생길 수 있습니다.B02B1/B


안녕 레프, 포인터 주셔서 감사합니다. N 병렬 단일 암 도둑을 플레이하는데 초기 예산이 무제한이라면 문제를 해결할 것이라는 데 동의합니다. 그러나 예산 제약은 무 기간 결합을 유도하고 일을 흥미롭게 만듭니다. 특히, 첫 번째 단계에서는 한 팔을 플레이하는 예산 만 있습니다. 두 번째 단계에서는 첫 단계에서 운이 좋았는지 여부에 따라 11 개의 팔 또는 1 개의 팔을 연주 할 수 있습니다. 따라서 더 많은 탐사를 위해 자금을 사용하기 위해서는 수익성 높은 무기를 조기에 찾는 것이 중요합니다.
Martin Pál

2
초기 예산이 있다는 것을 몰랐습니다 (이제 "음수가 아닌 잔액"부분을 이해했지만 질문에서 더 명확하게 만들 수 있습니까?). 그러면 문제가 더 흥미로워집니다. 또한 "문맥"또는 전문가 버전을 고려하는 것이 재미있을 수 있습니다. 불행히도, 나는이 문제에 대한 더 관련 참조를 모른다.
레브 레이 진

문제 공식이 제대로 잡히면 매 라운드마다 추가 $ 1를 얻습니다. 마틴, 질문을 분명히 해줄 수 있습니까?
Jukka Suomela

나는 당신이 기계를 지불하면 기계가 지불하는 모든 것을 얻고 당신이 게임을하기로 결정할 때마다 1 달러를 잃고 잃는다 고 생각합니다.
Lev Reyzin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.