이것은 다중 무기 산적 문제 의 간단한 경우입니다 . 아시다시피, 단기 지식이 부족하다고 생각 될 때 알 수없는 동전을 사용하여 수집 한 정보의 균형을 유지하고 싶습니다.
고전적인 다중 무기 산적 문제에서, 당신은 어느 동전에 대한 확률을 확신하지 못할 것입니다. 그러나 여기서 동전 A의 가치를 알고 있으므로 A를 뒤집을 때 정보가 없습니다. 실제로, 당신은 A의 확률 론적 특성을 무시하고 A를 선택할 때마다 평평한 가정 할 수 있습니다 . 이것은 동전 A를 뒤집는 것이 옳다면 A를 계속 뒤집어 야한다는 것을 의미합니다. B를 포기해야 할 때에 대한 최적의 중지 규칙 을 찾고자합니다 . 이는 B에 대한 매개 변수의 사전 분배 및 시행 횟수에 따라 다릅니다. 시험 횟수가 많을수록 탐색하는 데 더 많은 가치가 있으므로 B를 더 테스트 할 수 있습니다.1/2
일반적으로 최적의 전략을 찾고 더 간단하게 확인할 수있는 특별한 경우가있을 수 있지만 동적 프로그래밍 문제에서 벗어날 수 없다고 생각합니다.
사전에 유니폼을 착용 해야하는 곳은 다음과 같습니다.
(0 heads,3 tails),(1 head,5 tails),(2 heads,6 tails),(3,7),(4,8),...(31,35),(32,35),(33,36),(34,37),...(41,44),(42,44),...(46,48),(47,48),(48,49),(49,50) .
이 전략에서는 헤드 를 수집 할 것으로 예상됩니다 .61.3299
다음 Mathematica 코드를 사용하여 주식을 계산했습니다.
Clear[Equity];
Equity[n_, heads_, tails_] := Equity[n, heads, tails] =
If[n == 0, heads,
Max[1/2 + Equity[n - 1, heads, tails],
(heads + 1)/(heads + tails + 2) Equity[n - 1, heads + 1, tails] +
(tails + 1)/(heads + tails + 2) Equity[n - 1, heads, tails + 1]
]
]
비교를 위해, 톰슨 샘플링 휴리스틱 (Cam Davidson Pilon이 최적이라고 주장)은 평균 60.2907 헤드로 1.03915 감소했습니다. 톰슨 샘플링은 좋은 정보가 아니라는 것을 알기에 충분한 정보가있을 때 때때로 B를 샘플링한다는 문제가 있으며, 정보가 가장 가치가있을 때 B를 조기에 샘플링 할 기회를 낭비하는 경우가 많습니다. 이러한 유형의 문제에서, 당신은 거의 옵션 사이에 무관심하지 않으며 순수한 최적의 전략이 있습니다.
tp[heads_, tails_] := tp[heads, tails] =
Integrate[x^heads (1 - x)^tails / Beta[heads + 1, tails + 1], {x, 0, 1/2}]
Clear[Thompson];
Thompson[flipsLeft_, heads_, tails_] := Thompson[flipsLeft, heads, tails] =
If[flipsLeft == 0, heads,
Module[{p = tp[heads, tails]},
p (1/2 + Thompson[flipsLeft-1,heads,tails]) +
(1-p)((heads+1)/(heads+tails+2)Thompson[flipsLeft-1,heads+1,tails] +
((tails+1)/(heads+tails+2)) Thompson[flipsLeft-1,heads,tails+1])]]