평신도의 용어로 톰슨 샘플링은 무엇입니까?


14

Thompson Sampling 과 작동 방식 을 이해할 수 없습니다 . 나는 Multi Arm Bandit에 대해 읽었고 Upper Confidence Bound Algorithm을 읽은 후 Thompson Sampling이 UCB보다 성능이 우수하다고 많은 텍스트를 제안했습니다. 평신도 또는 간단한 용어로 Thompson Sampling이란 무엇입니까?

추가 이해를 위해 참조 기사를 자유롭게 제공하십시오.

답변:


9

나는 수학없이 설명하려고 노력할 것입니다. 이 답변의 일부 는 MAB 문제에 대한 다른 질문에 대한 답변에서 작성한 일부 요점에서 반복됩니다 .


전략적 트레이드 오프 다 팔 산적 문제에 : 에서 다 팔 산적 문제 도박꾼은 라운드의 주어진 수에 대한 자신의 총 기대 수익을 최대화하기 위해 하나 "산적"각 라운드와 시도를한다. 각 도적의 예상 귀환은 문제에서 알려지지 않은 일부 파라미터에 의해 설명되며, 우리는 각 라운드에서 더 많은 결과를 관찰 할 때 이러한 미지의 파라미터에 대해 더 많은 정보를 얻으므로 각 도적의 예상 복귀에 대해 더 많은 정보를 얻습니다 . 각 경기 라운드 (마지막 제외)에서 MAB 문제는 다음 두 가지 목표 사이에서 도박꾼 의 전략적 상충 관계를 포함합니다 .

  • 즉각적인 보상 : 각 라운드에서 그는 이번 라운드에 대해 높은 기대 보상을 제공하는 분배를 선택하려고합니다. 이는 분배에 대한 선호를 수반하며 (현재) 높은 평균 보상을 요구합니다.

  • 향후 보상 (정보 획득의 영향을 받음) : 한편, 그는 분배에 대해 더 많은 정보를 얻음으로써 (특히 다른 사람만큼 많이하지 않은 것들) 진정한 기대 보상에 대한 지식을 다듬어보고자합니다. 미래의 라운드에서 그의 선택을 향상시킵니다.

이 두 가지의 상대적 중요성은 트레이드 오프를 결정하며,이 상대적 중요성은 여러 요인의 영향을받습니다. 예를 들어, 문제에 남은 라운드 수가 적 으면 향후 시도에 대한 추론은 상대적으로 덜 가치가 있지만 나머지 라운드가 많으면 향후 보상에 대한 추론이 상대적으로 더 중요합니다. 따라서 도박꾼은 각 라운드의 예상 보상을 결정하는 미지의 매개 변수에 대해 더 배우기 위해 현재 라운드에서 즉각적인 보상을 극대화하는 데 얼마나 집중하고 싶은지, 그리고 얼마나 많이 벗어나고 싶은지를 고려해야합니다.


톰슨 샘플링 : 톰슨 샘플링 의 기본 아이디어는 각 라운드에서 우리는 기계에 대한 기존 지식을 알 수없는 매개 변수에 대한 사후 신념의 형태를 취하고이 사후 분포에서 매개 변수를 "샘플링"한다는 것입니다. 이 샘플링 된 매개 변수는 각 머신에 대해 예상되는 보상 세트를 생성하며 이제 해당 샘플링 된 매개 변수 아래에서 예상 수익률이 가장 높은 보상에 베팅합니다.

Prima facie , Thompson 샘플링 방식은 각 라운드에서 즉각적인 기대 수익률을 최대화하려는 시도를하는 것으로 보입니다 (매개 변수를 샘플링 한 후이 최대화 단계를 포함하기 때문에). 그러나 후자의 매개 변수를 무작위로 샘플링하기 때문에 계획에는 암시 적더 많은 정보를 검색하는 것과 비교하여 현재 보상을 극대화하는 변형. 대부분의 경우 우리는 후부의 주요 부분에 매개 변수 "샘플"을 얻습니다. 기계를 선택하면 즉각적인 보상의 극대화에 거의 근접하게됩니다. 그러나 때때로 우리는 사후 분포의 꼬리에 먼 매개 변수 값을 무작위로 샘플링 할 것이며,이 경우 즉각적인 보상을 극대화하지 않는 기계를 선택하게 될 것입니다. 미래의 보상에 도움이됩니다.

Thompson 체계는 또한 우리가 더 많은 정보를 얻을 때 우리의 "검색"을 줄이는 경향이 있다는 좋은 특성을 가지고 있으며, 이는 우리가 더 많은 정보를 얻을 때 검색에 덜 집중하고 싶은 문제에서 바람직한 전략적 균형을 모방합니다. 점점 더 많은 라운드를 플레이하고 더 많은 데이터를 얻으면 후자는 실제 매개 변수 값에 더 가깝게 수렴되므로 Thompson 체계의 임의 "샘플링"은 매개 변수 값 주위에 더 밀접하게 채워 져서 즉각적인 보상. 따라서이 체계는 정보가 거의없는 초기에 "검색 지향"이되고 나중에 많은 데이터가있을 때 "검색 지향"이되는 암시적인 경향이 있습니다.

이것을 말하면서, 톰슨 샘플링 방식의 명백한 단점은 MAB 문제에 남아있는 라운드 수를 고려하지 않는다는 것입니다. 이 계획은 때때로 무한 라운드 게임을 기반으로 공식화되며,이 경우에는 문제가되지 않습니다. 그러나, 유한 라운드의 MAB 문제에서, 미래 라운드의 수가 감소함에 따라 "검색"을 감소시키기 위해 나머지 라운드의 수를 고려하는 것이 바람직하다. (특히 마지막 라운드에서 최적의 플레이는 검색을 완전히 무시하고 사후 예상 수익률이 가장 높은 산적에 베팅하는 것입니다.) 톰슨 체계는이 작업을 수행하지 않기 때문에 무한 라운드 게임을 진행합니다. 어떤 경우에는 분명히 차선책입니다.


1
이 응답에 여러 개의 엄지 손가락을 넣을 수 있기를 바랍니다. 예를 들어 사후가 정규 분포로 표현 된 경우와 같이 사후를 업데이트하는 방법을 추가 할 것입니다. 사후의 평균 및 표준 편차에 대한 업데이트는 어떻게 계산됩니까? 나는 나 자신을 모르기 때문에 이것을 말한다
Mellow

5

나는 그것을 주사하고 당신이 그것을 좋아 바랍니다! 당신을 놀라게 할 몇 가지 수식이 아래에 있습니다. 내가 할 수있는 가장 간단한 방법으로 설명하기 위해 최선을 다할 것이기 때문에 나는 그렇게 희망하지 않습니다.

다음은 두 가지 공식입니다.

  • 가능성 :P(r|θ,a,x)
  • 그리고 그 후부 :P(θ|D)

TL; DR

톰슨 샘플링을 통해

  1. 가능하다고 생각되는 모든 모델 매개 변수에서 무작위 모델 매개 변수를 선택하십시오.
  2. 해당 모델 매개 변수에 따라 한 번만 행동하십시오.
  3. 특정 모델 매개 변수로 얻을 수있는 보상을 관찰하십시오.
  4. 이 새로운 경험에서 배우고 가능한 모델 매개 변수에 대한 믿음을 업데이트하십시오.

줄??

가능성은 어떻게 정의하는 뭔가 가능성이 일들이 있습니다. 이 경우 가능성은 얼마나 말한다 가능성이 우리가 보상받을 것입니다 경우 플레이 액션 컨텍스트에서 . 예를 들어 비가 오면 (컨텍스트!) 우산을 가져 가면 (액션!) 건조한 상태를 유지합니다 (보상! :)). 반면, 비가 내리지 않고 (컨텍스트!) 우산을 가져 가면 (액션!) 추가 무게를 가해 야합니다 (부정적 보상! :(). 따라서 가능성은 이해하려는 중심적인 것입니다. 가능성에 대한 모든 것을 알고 있다면 최적의 행동을하기가 쉽습니다.a xrax

그 이상한 원은 어떻습니까?

알다시피, 나는 라는 이상한 원에 대해 아무것도 쓰지 않았습니다 . (수학자들은 그리스 문자를 제공함으로써 이해하기 어려운 부분을 가장 어려운 부분을 나타내는 습관을 가지고 있습니다). 이 는 모델 매개 변수를 나타냅니다. 이러한 매개 변수는 상황 + 행동과 보상 사이의 관계가 더 어려울 때 사용됩니다. 예를 들어, 모델 매개 변수는 1mm 비가 머리 위로 떨어지면 보상이 얼마나 내려가는지를 나타냅니다. 다른 모델 매개 변수는 우산을 가져 가면 보상이 얼마나 내려갈지를 나타냅니다. 방금 그 가능성이 당신이 이해하고 싶은 중심적인 것이라고 말했습니다. 모델 매개 변수는 가능성의 핵심입니다. 당신은 모델 파라미터 알고있는 경우θ θθθθ상황과 행동이 보상과 어떤 관련이 있는지 알고 있으며 최적의 행동을하기가 쉽습니다.

어떻게하면 최대 보상을받을 수 있도록 이러한 모델 매개 변수를 알 수 있을까요?

그것은 다중 무기 산적 문제에 대한 필수 질문입니다. 실제로 두 부분으로 구성되어 있습니다. 서로 다른 상황에서 모든 종류의 작업을 탐색하여 모델 매개 변수를 정확하게 알고 싶습니다. 그러나 특정 상황에 적합한 행동을 이미 알고 있다면 그 행동을 악용하여 최대한 많은 보상을 얻고 자합니다. 당신이 당신의 모델 매개 변수에 대한 확신이 있다면 그래서 당신은 몇 가지 추가 탐사 작업을 수행 할 수 있습니다. 우리의 모델 매개 변수 에 대해 확신이 있다면 어떤 조치를 취할 것인지도 확실합니다. 이것을 탐사 대 착취 트레이드 오프라고합니다.θθθ

이 후부에 대해 아무 말도하지 않았습니다

이 최적의 동작의 핵심은 모델 매개 변수 대한 확실하지 않은 것 입니다. 그리고 그 후자는 정확히 다음과 같이 말합니다 : 이전 상황에서 우리가 이전 행동에서 얻은 모든 이전 보상을 감안할 때 에 대해 얼마나 알고 있습니까 ? 예를 들어, 당신이 바깥에 가본 적이 없다면 비가 머리에 떨어질 때 얼마나 불행 해지는 지 알 수 없습니다. 다시 말해, 비-온-헤드 모델 매개 변수에 대한 불행은 매우 불확실합니다. 때때로 우산이 있거나없는 비가 오면이 모호한 모델 매개 변수에 대해 배울 수 있습니다.θθθ

이제 Thomson Sampling은이 모든 불확실성과 관련하여 무엇을 제안합니까?

Thomson Sampling은 매우 간단한 것을 제안합니다. 후부에서 임의의 모델 매개 변수를 선택하고 조치를 취하고 발생하는 것을 관찰하십시오. 예를 들어, 이전에 외부에 본 적이없는 경우, 비가 올 때의 불행은 매개 변수가 될 수 있습니다. 그래서 우리는 단지 하나를 선택합니다. 비가 머리에 떨어지면 정말 불행하다고 가정합니다. 모델 매개 변수가 이것이 최대 보상을 얻는 방법이라고 알려주기 때문에 비가 내리는 것 (문맥)을 보이므로 우산 (동작)을 취합니다. 그리고 실제로, 당신은 우산으로 비를 걷다가 약간 심술 get지만 실제로 불행하지는 않음을 관찰합니다. 우리는 이것으로부터 비 + 우산이 심하다는 것을 배웁니다. 다음에 비가 내릴 때 비가 머리에 떨어질 때 어떤 일이 발생하는지에 대한 무작위 신념을 다시 선택하십시오. 이번에는 전혀 귀찮게하지 않을 수 있습니다. 하나, 일단 목적지까지 반쯤 내려 가면 젖어 있고 우산이없는 비가 정말 나쁘다는 것을 알게됩니다. 이렇게하면 비가 올 때의 불행에 대한 불확실성이 줄어 듭니다.

너무 간단하게 들립니다!

그렇습니다. 그렇게 복잡하지 않습니다. 어려운 부분은 모델 파라미터 후부에서 샘플링하는 것입니다. 모든 모형 모수에 대한 분포를 얻고 유지하는 것은 특정 문제에도 적합하지 않습니다. 그러나 ... 그것은 확실히 할 수 있습니다 :).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.