반복되는 게임에서 평형을 반복적으로 연주 함.


1

반복되는 게임에 대해 알려진 사실에 대한 공식 증명은 무엇입니까?

모든 시간 단계에서 플레이어가 역사에 기초하지 않은 기본 게임에서 내쉬 균형을 재생하는 상황은 반복되는 게임에서 내쉬 균형입니다.


아마도이 질문을 다시 형식화하고 증거를 답변으로 게시해야합니다.
denesp

귀하의 증거는 본질적으로 정확합니다. 충분히 공식적인 것인지 말하기는 어렵습니다. 누구에게 충분합니까? 논리는 이해하기 쉽다 (주관적이다). 그러나 $ X ^ t, Y ^ t $는 아마도 전략의 함수로 정의 될 수있다.
denesp

답변:


1

모든 플레이어가 무조건적인 Nash 평형을 플레이한다고 가정 해 봅시다. 플레이어 $ i $는 우회하여 다른 전략을 플레이합니다. 플레이어 $ i $의 다른 전략은 역사에 의존 할 수 있습니다. 우리는 반복 된 게임에서 플레이어 $ i $의 보수가 증가하지 않는다는 것을 증명해야합니다.

모든 시간주기 t에 대해 다음 임의의 변수를 정의하십시오.

  • $ X ^ {t} $ - 플레이어 $ i $를 포함한 모든 플레이어가 기본 내쉬 균형을 재생할 때의 시간 t에서 플레이어 $ i $의 효용.
  • $ y_ {h} ^ {t} $ ($ h $는 길이 $ t-1 $의 히스토리 벡터입니다.) - 플레이어 $ i $가 대안을 우회하여 재생할 때 시간 $ t $에서 플레이어 $ i $의 유틸리티 다른 모든 플레이어는 기본적인 내쉬 균형을 계속 수행합니다.
  • $ Y ^ {t} $ - 다른 모든 플레이어가 기본 내쉬 균형을 계속 수행하면서 플레이어 $ i $가 전환되면 시간 $ t $에 플레이어 $ i $의 효용 : $$ Y ^ {t} = \ sum_ {h} Prob [h] \ cdot Y_ {h} ^ {t} $$

Nash 평형의 정의에 따라 매번 $ t $ 모든 역사에 대해 $ h $ :

$$ E [Y_ {h} ^ {t}} \ leq E [X ^ {t}] $$

따라서 또한 :

\ sum {h} Pr [h] \ cdot E [Y_ {h} ^ {t}] \, \ leq \, \ sum_ { E [X ^ {t}] \ cdot \ sum_ {h} Pr [h] \, \ leq \, E [X ^ {t} ] $$

전체 시리즈를 합산하고, 합계의 기대가 기대의 합이라는 사실을 사용하여 :

$$ E [\ sum_ {t = 1} ^ {T} X ^ {t}] $$

따라서 플레이어는 이탈함으로써 얻을 수 없습니다.


이 증명을 입증하는 @denesp에 감사드립니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.