Elo 등급 시스템이 왜 잘못된 업데이트 규칙을 사용합니까?


10

Elo 등급 시스템은 쌍 비교에서 결과의 예상 확률과 관측 확률 사이의 교차 엔트로피 손실 함수의 경사 하강 최소화 알고리즘을 사용합니다. 일반적인 손실 함수를 다음과 같이 작성할 수 있습니다.

E=n,ipiLog(qi)

여기서 합계는 모든 결과 및 모든 상대 됩니다. 는 이벤트 의 관측 된 주파수 이고 는 예상 된 주파수입니다.n p i i q iinpiiqi

두 가지 가능한 결과 (승리 또는 느슨한)와 한 명의 상대의 경우

E=pLog(q)(1p)Log(1q)

경우 πi 하여 플레이어의 순위가되고 iπj 하여 플레이어의 순위입니다 j 우리는 기대 확률 구축 할 수 qj=e π j

qi=eπieπi+eπj
qj=eπjeπi+eπj
그라디언트 하강 업데이트 규칙에 따라 사용

πi=πiη(qipi)

πj=πjη(qjpj)

여기서 qipi 는 플레이어 j 에 대한 플레이어 i 의 예상 및 관측 된 승률입니다 . 이것이 업데이트 규칙입니다.ijtwo outcomes

추첨이 존재하면 위의 모델을 포함하여 세 번째 결과를 확률로 일반화 할 수 있습니다

qi(w)=eπi

q(d)=νeπi+πj2eπi+eπj+νeπi+πj2
의 QJ(w)=EπJ
qi(w)=eπieπi+eπj+νeπi+πj2
qj(w)=eπjeπi+eπj+νeπi+πj2

그리고 Loss 함수를

E=p(w)Log(q(w))(1p(w)p(d))Log(q(l))p(d)Log(q(d))

여기서 각각의 관측 가능성이있는 , 그리고 및 의 예상 가능성 , 및 . 후자의 경우 업데이트 규칙은q ( w ) , q ( l ) , q ( d )p(w),p(l),p(d)winloosedrawq(w),q(l),q(d)winloosedraw

πi=πiη(qi(w)+qi(d)2pi(w)pi(d)2)

πj=πjη(qj(w)+qj(d)2pj(w)pj(d)2)

여기서 및 는 플레이어 가 플레이어 에 대해 이길 수 있는 예상 확률입니다 . 그리고 여기서 및 는 플레이어 가 플레이어 에 대해 이길 수 있는 관측 된 확률입니다 . 이것이 업데이트 규칙입니다.q j ( d ) i j p i ( w ) p i ( dqj(w)qj(d)ijpi(w)일본pi(d)ijthree outcome

문제는 Elo 등급 시스템 two outcomes이 무승부 상황에서도 업데이트 규칙을 사용하는 이유 는 무엇입니까?

답변:


3

결정적인 결과를 얻는 것과는 대조적으로 인발 확률은 Elo 시스템에 명시 되어 있지 않습니다 . 대신 예상 성능과 경기 결과 모두 무승부로 간주됩니다.

Wikipedia의 Elo 페이지 의 예 : "플레이어의 예상 점수는 승리 확률과 그의 추첨 확률의 절반입니다. 따라서 예상 점수 0.75는 75 %의 승리 확률, 25 %의 패배 확률 및 0 % 확률을 나타낼 수 있습니다 다른 극단적 인 경우 50 %의 이길 확률, 0 %의 이길 확률 및 50 %의 가능성을 나타냅니다. "

내가 말한 것처럼 그림의 확률은 지정되지 않았 으며 간단한 two outcome업데이트 규칙 , 이므로 단일 경기 후 (승) 또는 (무승부, ) 또는 (손실)입니다.S = 1 ( N w + 0.5 N D ) + 0 ( 0.5 N D + N L ) S = 1 S = 0.5 S A = 0RA=RA+K(SAEA)SA=1(nw+0.5nd)+0(0.5nd+nl)SA=1SA=0.5SA=0

Elo와 마찬가지로 Glicko 시스템은 무승부를 모델링하지 않지만 (플레이어 당) 승리 및 손실의 평균으로 업데이트합니다. 대신, TrueSkill 순위 시스템에서 "드로우는 특정 게임의 성능 차이가 작은 것으로 가정하여 추첨을 모델링합니다. 따라서 추첨의 기회는 두 플레이어의 플레이 강도 차이에 따라 달라집니다. 그러나 게임에서 경험적인 결과 "초보자보다 프로 선수들 사이에서 무승부가 더 가능성이 높다는 것을 보여줍니다. 따라서 그리기의 가능성도 기술 수준에 달려있는 것 같습니다."

이 접근 방식은 모든 게임에 대해 서로 다른 특정 모델링이 필요하며 TrueSkill은 몇 가지 Microsoft Xbox 게임에 적용되므로 Elo 및 Glicko (체스만을 위해 설계됨)에 적합하며 다목적 순위 시스템 인 순위 에 적합 하지 않습니다 .


'플레이어의 예상 점수는 승리 확률과 그의 추첨 확률의 절반입니다.' 정확히 위의 수식에서 찾은 것입니다. 어쨌든 Elo 업데이트 포뮬러에서 드로우 확률의 절반은 지적한대로 지정되지 않았습니다. 질문은 왜 우리가 Elo 순위 시스템에서 무승부를 신경 쓰지 않습니까?
emanuele

1
항상 예상 점수를 이길 확률과 잃을 확률로 표현할 수 있습니다 (그리고 그림을 그릴 가능성이 없음-Wikipedia의 첫 번째 예 참조). 이 경우 '플레이어의 예상 점수는 승리 확률입니다'(그리고 추첨 확률의 절반이 0이므로 더 중요합니다). 한 번의 경기 후 결과는 승리 또는 패배 또는 반 승리입니다. 추첨이 허용되는 게임이 있어도 추첨이 기회가없는 것처럼 승리와 패배를 조합하여 Elo 점수를 업데이트 할 수 있습니다.
Tomaso Neri
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.