Elo 등급 또는 페이지 순위가 내 세트에 의미가 있음을 증명하는 방법은 무엇입니까?

13

선수 세트가 있습니다. 그들은 서로에 대해 (쌍으로) 연주합니다. 한 쌍의 플레이어가 무작위로 선택됩니다. 어떤 게임에서든 한 플레이어가 이기고 다른 플레이어가집니다. 플레이어는 서로 제한된 수의 게임을합니다 (일부 플레이어는 더 많은 게임을, 더 적은 게임을). 그래서 나는 데이터를 가지고 있습니다 (누가 누구와 몇 번이나 이겼는지). 이제는 모든 플레이어가 이길 확률을 결정하는 순위가 있다고 가정합니다.

이 가정이 실제로 진실인지 확인하고 싶습니다. 물론, Elo 등급 시스템 또는 PageRank 알고리즘 을 사용하여 모든 플레이어의 등급을 계산할 수 있습니다. 그러나 등급을 계산한다고해서 등급 (등급)이 실제로 존재한다는 것을 증명하지는 않습니다.

다시 말해, 나는 선수들이 다른 강점을 가지고 있음을 증명 (또는 점검) 할 수있는 방법을 원합니다. 어떻게하니?

추가

좀 더 구체적으로 말하면, 나는 8 명의 플레이어와 18 개의 게임 만 있습니다. 따라서 서로 대결하지 않은 많은 플레이어 쌍과 서로 한 번만 연주 한 많은 쌍이 있습니다. 결과적으로, 주어진 한 쌍의 선수에 대한 승리 확률을 추정 할 수 없습니다. 예를 들어, 6 게임에서 6 번이긴 플레이어가 있습니다. 그러나 아마도 우연의 일치 일 것입니다.

goodness-of-fit ranking rating

— 로마 인
소스

모든 플레이어의 강도가 같은 귀무 가설을 검정하거나 플레이어 강도 모델의 적합성을 확인 하시겠습니까?

— onestop

@onestop : 같은 힘을 가진 모든 플레이어는 매우 불가능합니다. 이것을 가설로 제안하는 이유는 무엇입니까?

— endolith

10

확률 모델이 필요합니다.

랭킹 시스템의 기본 개념은 단일 숫자가 플레이어의 능력을 적절히 특성화한다는 것입니다. 이 숫자를 "강도"라고 부를 수 있습니다 ( "순위"는 이미 통계에 특정한 것을 의미하기 때문입니다). 강도 (A)가 강도 (B)를 초과하면 플레이어 A가 플레이어 B를 이길 것으로 예상됩니다. 그러나이 진술은 (a) 정량적이지 않으며 (b) 약한 선수가 때때로 더 강한 선수를 때릴 가능성을 설명하지 않기 때문에 너무 약하다. A가 B를 이길 확률이 강도의 차이에만 의존한다고 가정하면 두 가지 문제를 극복 할 수 있습니다 . 만약 그렇다면, 우리는 힘 의 차이가 승리의 로그 확률과 같 도록 모든 힘을 다시 표현할 수 있습니다 .

구체적으로이 모델은

l o g i t (Pr (A beats B)) = λ_{A} - λ_{B}

$\mathrm{logit}(\Pr(A \text{ beats } B)) = \lambda_A - \lambda_B$

여기서 정의에 따르면 는 로그 확률이며 플레이어 A의 강도 등을 위해 를 작성했습니다 . $\mathrm{logit}(p) = \log(p) - \log(1-p)$ $\lambda_A$

이 모델에는 플레이어만큼 많은 매개 변수가 있습니다 (그러나 상대 강도 만 식별 할 수 있기 때문에 자유도가 1 줄 지므로 매개 변수 중 하나를 임의의 값으로 수정합니다). 일종의 일반화 된 선형 모델입니다 (이항 패밀리에서 로짓 링크 사용).

모수는 최대 우도에 의해 추정 될 수 있습니다 . 동일한 이론은 모수 추정치 주변의 신뢰 구간을 세우고 가설을 검정하는 수단을 제공합니다 (예 : 추정치에 따라 가장 강한 선수가 추정 된 가장 약한 선수보다 유의하게 강한 지 여부).

특히 게임 세트의 가능성은 제품입니다

\prod_{all games} \frac{\exp (λ_{winner} - λ_{loser})}{1 + \exp (λ_{winner} - λ_{loser})} .

$\prod_{\text{all games}}{\frac{\exp(\lambda_{\text{winner}} - \lambda_{\text{loser}})}{1 + \exp(\lambda_{\text{winner}} - \lambda_{\text{loser}})}}.$

중 하나의 값을 고정한 후 다른 것의 추정치는이 가능성을 최대화하는 값입니다. 따라서 추정값을 변경하면 가능성이 최대 값에서 줄어 듭니다. 너무 많이 줄이면 데이터와 일치하지 않습니다. 이러한 방식으로 모든 모수에 대한 신뢰 구간을 찾을 수 있습니다.이 모수는 추정치의 변화가 로그 우도를 지나치게 감소시키지 않는 한계입니다. 일반적인 가설도 유사하게 테스트 할 수 있습니다. 가설은 강도를 제한합니다 (예 : 모두 같다고 가정).이 제한은 가능성이 커질 수있는 범위를 제한하며,이 제한된 최대 값이 실제 최대 값보다 너무 떨어지면 가설은 다음과 같습니다. 거부되었습니다. $\lambda$

이 특별한 문제에는 18 개의 게임과 7 개의 무료 매개 변수가 있습니다. 일반적으로 매개 변수가 너무 많습니다. 유연성이 너무 커서 최대 가능성을 크게 변경하지 않고도 매개 변수를 자유롭게 변경할 수 있습니다. 따라서 ML 기계류를 적용하면 확실한 결과를 얻을 수 있습니다. 즉, 강도 추정값을 신뢰할만한 데이터가 충분하지 않을 수 있습니다.

— 우버
소스

2

(+1)이 모델에 대한 추가 검색을 통해 OP를 돕기 위해 몇 가지 추가 사항이 있습니다. (1)이 모델을 종종 Bradley-Terry 모델이라고합니다 (최소한 Zermelo의 작업으로 돌아가지만). (2) 하면 가 를 확률 은 입니다. (3) 풀 라운드 로빈 토너먼트가 진행되는 경우 (여기서는 해당되지 않음) 강점 순위는 각 플레이어의 우 승률과 정확히 일치합니다. (4) 적합도는 노드를 플레이어로하고 가장자리를 게임으로하는 그래프의 흐름과 관련이 있습니다.

s_{A} = \exp (λ_{A})

$s_A = \exp(\lambda_A)$

A

$A$

B

$B$

s_{A} / (s_{A} + s_{B})

$s_A/(s_A + s_B)$

— 추기경

레스터 R 포드 (Lester R. Ford, Jr.)는이 아이디어를 기반으로 피팅 알고리즘을 Amer 에서 다루는 기사도있다. 그의 아버지를 기리기 위해 작성된 1957 년의 수학 월간 작품.

— 추기경

4

각 플레이어가 각각의 게임에서이기거나 잃을 가능성이 있다는 귀무 가설을 테스트하려면 패자를 상대로 승자를 도표화하여 형성된 우발 상황 표의 대칭 테스트를 원한다고 생각합니다 .

각 게임의 승자와 패자의 ID를 포함하는 'winner'와 'loser'의 두 변수를 갖도록 데이터를 설정하십시오. 즉, 각각의 '관측'은 게임입니다. 그런 다음 승자와 패자의 우발 상황 표를 구성 할 수 있습니다. 귀무 가설은이 표가 대칭적일 것으로 예상한다는 것입니다 (평균 반복 토너먼트에 대해서는). 귀하의 경우, 대부분의 항목이 0 (만난 적이없는 플레이어에 해당) 인 8 x 8 테이블을 얻습니다. 테이블은 매우 희박하므로 무증상에 의존하는 것이 아니라 '정확한'테스트가 거의 필요할 것입니다.

이러한 정확한 테스트는 Stata에서 대칭 명령으로 사용할 수 있습니다 . 이 경우 구문은 다음과 같습니다.

symmetry winner loser, exact

의심의 여지없이 그것은 익숙하지 않은 다른 통계 패키지에서도 구현됩니다.

— 한 정거장
소스

(+1) 유감 스럽지만 ,이 Stata 명령이 유전학에서 변이 / 평형 테스트에 사용될 수 있다는 것을 깨달았습니다 .) 이전 응답 인 stats.stackexchange.com/questions/5171/…

— chl

실제로 TDT는 위에 링크 된 Stata 도움말에서 논의 된 하나의 응용 프로그램입니다. 또한이 테스트를 처음 접한 상황이기도합니다. 이전 Q에 대한 링크를 보내 주셔서 감사합니다-게시되었을 때 다른 Q로 바빴던 것처럼 보입니다.

— onestop

문제는 가설 검정과 관련이 있지만, 강조의 선택은 적합한 질문의 장점에 있습니다. 단일 숫자 (스칼라) 강도가 플레이어 간의 경기 결과를 효과적으로 모델링합니까?

— whuber

1

Mark Glickman의 간행물을 확인 했습니까? 관련성이있는 것 같습니다. http://www.glicko.net/

등급의 표준 편차에 내재 된 것은 게임의 예상 값입니다. (이 표준 편차는 기본 Elo의 특정 숫자로 고정되고 Glicko 시스템에서 가변적입니다). 나는 무승부 때문에 이길 확률보다는 기대 값을 말한다. Elo 등급에 대해 이해해야 할 핵심 사항은 기본 분포 가정 (예 : 정규 또는 물류)과 가정 된 표준 편차입니다.

Elo 공식의 로지스틱 버전은 110 점의 등급 차이의 예상 값이 .653임을 나타냅니다 (예 : 플레이어 A가 1330이고 플레이어 B가 1220 임).

http://en.wikipedia.org/wiki/Elo_rating_system (OK, Wikipedia 참고 자료이지만 이미이 답변에 너무 많은 시간을 보냈습니다.)

이제 우리는 각 플레이어의 등급과 게임을 기반으로 한 결과에 대해 각 게임에 대한 예상 가치를 얻었습니다.

이 시점에서 다음으로 할 일은 낮음에서 높음까지의 간격을 조정하고 예상 및 실제 결과를 합산하여 그래픽으로 확인하는 것입니다. 따라서 처음 5 개 게임의 경우 총 2 점, 예상 점수는 1.5 점입니다. 처음 10 개 게임의 경우 총 포인트 8, 예상 포인트 8.8 등이있을 수 있습니다.

이 두 선을 누적하여 (Kolmogorov-Smirnov 테스트에서와 같이) 그래프로 표시하면 예상 누적 값과 실제 누적 값이 서로 잘 추적되는지 여부를 확인할 수 있습니다. 다른 사람이보다 공식적인 테스트를 제공 할 수 있습니다.

— zbicyclist
소스

1

평가 시스템 의 추정 방법이 얼마나 정확한지 테스트 하는 가장 유명한 예 는 체스 등급 -Kalole 의 나머지 경쟁 세계 대 경쟁입니다 . 그 구조는 다음과 같습니다.

선수는 8,631 명의 최고 선수에 대한 65,000 개 이상의 최근 결과에 대한 훈련 데이터 세트를 사용하여 등급 시스템을 훈련시킵니다. 그런 다음 참가자는 자신의 방법을 사용하여 추가 7,809 게임의 결과를 예측합니다.

우승자는 Elo ++ 입니다.

이론적으로 18 개의 일치 항목이 좋은 테스트 기반이 아니더라도 요구에 적합한 테스트 체계 인 것 같습니다. 당신은 (여기의 다양한 알고리즘에 대한 결과의 차이를 확인할 수 비교 사이 rankade , 우리의 순위 시스템은, 대부분 포함 알려진 일로 , Glicko 및 Trueskill ).

— 토 마소 네리
소스

0

결과의 확률이 매치업에 의존한다는 가설을 테스트하려고합니다. 은 모든 게임이 본질적으로 동전 뒤집기라는 것입니다. $H_0$

이를위한 간단한 테스트는 더 많은 이전 게임을 한 플레이어가 이길 시간의 비율을 계산하고 이항 누적 분포 함수와 비교하는 것입니다. 그것은 어떤 종류의 효과의 존재를 보여 주어야합니다.

게임의 Elo 등급 시스템의 품질에 관심이 있다면 간단한 방법은 Elo 모델의 예측 성능에 대해 10 배의 교차 검증을 실행하는 것입니다 (실제로는 결과가 iid가 아니라고 가정합니다). 무시하고 동전 뒤집기와 비교합니다.

— 세 스쿠
소스

더 구체적으로 말하면 나는 8 명의 선수와 단지 18의 게임이있다. 서로 플레이하지 않은 많은 플레이어 쌍과 서로 플레이 한 많은 플레이어 쌍이 있습니다. 결과적으로, 주어진 한 쌍의 플레이어에 대한 승리 확률을 추정 할 수 없습니다. 예를 들어 6 게임에서 6 번이긴 플레이어가 있습니다. 그러나 우연의 일치 일 수도 있습니다.

— 로마