등급 인플레이션에 대한 많은 연구가 있었습니까?


24

어제 2012 런던 체스 클래식에서 열린 Magnus Carlsen의 추첨은 다음에 출판 된 FIDE 등급 목록에서 그의 등급이 카스파로프의 이전 기록 인 2851을 능가 할 것이라고 확신했습니다. 저는 열정적 인 체스 팬들이 칼센의 등급 업적과 카스파로프의 상대적인 장점에 대해 토론하는 것을 보았습니다. 피셔와 비교하면됩니다. 분명히, 그것은 내가 여기서 추구하는 것이 아닙니다.

이러한 토론의 중요한 요소 중 하나는 일반적으로 Elo 등급이 시간이 지남에 따라 인플레이션을 겪었는지 여부에 대한 개념입니다. 20 년 전보다 연주 강도가 전반적으로 상승했거나 일부가 숫자의 전반적인 인플레이션 추세? 또한 그 여부에 대한 맹렬한 의견을 요구하지 않습니다. 내가 알고 싶은 것 :

플레이어 풀의 전체 강도가 상승한 것 이외의 이유로 FIDE Elo 등급이 시간이 지남에 따라 자연적으로 부풀려 졌는지에 대한 경험적 질문에 대답하기 위해 어떤 진지한 연구가 이루어 졌습니까?

ELO를 평가 시스템에 위키 백과 항목은 말을 조금이 문제에 대해, 그리고도를 가리키는 기사 의 제프 소 나스에 의해 Chessmetrics . 나는 다른 사람들이 일할 수있는 어떤 조언에 덧붙여 소 나스의 요점을 명확하고 간결하게 요약 한 대답을 환영 할 것이다.


고려해야 할 또 다른 사항은 USCF 등급의 인플레이션입니다. USCF는 정기적으로 선수들의 공포를 조정합니다. USCF와 FIDE는 ​​동일한 시스템을 사용하기 때문에 기본적으로 인플레이션이 FIDE가 아닌 USCF에 영향을 줄 수 있는지에 대해 놀랐습니다.
Tony Ennis

2
시스템은 동일하지 않습니다. 예를 들어 USCF의 등급은 분명히 인플레이션 요인입니다.
RemcoGerlich

답변:


19

Ken Regan과 Guy Haworth의 "Intrinsic Chess Ratings"라는 논문이 아직 게시되지 않은 것에 놀랐습니다. 그것은 정확히 요구되는 것인데, 등급 인플레이션에 대한 진지한 연구입니다. PDF

기본적으로 그들은 몇 가지 등급 범위 (예 : 2200의 10 점 이내, 2300의 10 점 이내 등)의 3 가지 기간 (1976-1979, 1991-1994, 2006-2009)에서 게임을 받았으며 팀 경기와 같은 예외 일 수 있습니다. 신문을 읽으면 아주 철저하게 보입니다.

그런 다음 게임을 체계적으로 Rybka 3과 비교했습니다.

결론의 일부 문장 :

우리는 실제 플레이어의 Elo 등급과 체스 프로그램과 에이전트 피팅에 의해 측정 된 이동 선택의 본질적인 품질 사이에 매끄러운 관계가 있다고 결론지었습니다. 더욱이, 얻어진 최종 핏 값은 3 개의 모든 기간의 대응하는 엔트리에 대해 거의 동일하다.

내 견해로는, 등급 인플레이션의 존재에 대한 확실한 증거입니다.


1
이것을 게시 해 주셔서 감사합니다. 또한 공유했습니다. 이것은 플레이어를 객관적인 표준과 비교 한 유일한 연구 라인입니다. 인플레이션을 평가하기 위해 내가 본 모든 주장은 주관적이고 일반적으로 일화입니다. 개인적으로, 필자는 Morphy가 아마도 2300이라는 사실이 당시 그의 경쟁자에 대한 그의 게임이나 기술에 대한 감사를 빼앗아 갈 것이라고 생각하지 않습니다.
Sam Copeland

12

나는 주위를 찔렀다. 아마이 페이지들을 보았지만 어쨌든 게시하겠습니다.

에이. 이 페이지가 관심을 가질 것 입니다. 여기에는 가능성을 나타내는 Elo 자신의 편지 사본이 포함됩니다.

따라서 시간이 지남에 따라 등급 척도를 안정화시키기위한 조치를 취하지 않으면 등급 척도가 표류 할 수 있습니다.

또한 등급 척도에는 고정 점이없고 고정 점이 없습니다. 한 시간 안에 레이스를하는 선수와 비교하십시오. 1 시간은 50 년 전의 1 시간과 같습니다. 시간 은 그런 고정 된 지점입니다.

비. 또한 '인플레이션'질문은 최근 고립 된 지역에서 나오는 높은 등급에 대한 최근의 계시에 의해 답변되지 않았습니까? 문제에 대한 암시를 보려면 이 페이지의 "플레이어 풀"섹션을 참조하십시오 . 비록 학문적이거나 특히 유익하지는 않지만 추가 지원 . "isol"을 검색하십시오. 여기 에 고립 된 인구에서 발생하는 일을 보여주는 또 하나의 일화 가 있습니다 ( '체스 플레이어가 왜 미쳤는가'에 대한 또 다른 후보입니다!)

기음. 일로 위키 문서 인플레이션에 대해 이야기 그것이 받아 들여진 사실 인 것처럼.

디. 다음 은 인플레이션대한 독일 기사후속 조치 입니다. 1986 년에 그 흡연 총을보세요!


나는 페이지를 보지 못했습니다. 감사합니다. b.에 관해서는, 나는 당신이 말하는 것을 알지 못합니다. 정교하게 할 수 있습니까?
ETD

2
실제 앵커가 없으면 정확하게 조정할 수 없다고 주장합니다. 결국, 우리는 단지 임의의 가치를 향해 환경 적으로 조정하고 있습니다.
Daniel B

혹시. 그러나 유사한 분포 곡선을 산출하기 위해 등급을 조정하는 것이 좋은 시작일 것입니다. 예를 들어, 몇 년 전 USCF는 등급을 조정하여 평균 클럽 선수는 1500 명이었습니다. 여전히 그렇게하는지 모르겠습니다.
Tony Ennis

1
@TonyEnnis 물론, 지금은 아마 그것이 나아질 것이라고 생각합니다. 특히, "평균 클럽 선수"가 실제로 50 년 전보다 나은 경우 어떻게됩니까? 우리가 과거의 선수들과 경기를 할 수있는 것은 아닙니다. 그래서 우리는 어떻게 든 선수의 힘을 추정하고 조정해야합니다. 컴퓨터 프로그램 (표준의 규정 된 플랫폼에서 실행)을 사용하는 경우, 우리는 일종의 편견이없고 지속적인 앵커를 가질 수 있습니다. 그러나 이것조차 벤치 마크 프로그램에 잘 맞는 전략의 발견과 같은 문제가있을 것이다.
Daniel B

5

절대적으로, Carlsen 2012는 Kasparov 1985보다 강력한 선수입니다.

Carlsen 2012가 시간 여행으로 1986 년 Kasparov와 경기를한다면 Carlsen은 Kasparov를 이길 것입니다. 이것은 단지 기술 보조 준비가 훨씬 더 효율적이기 때문이며 Carlsen은 Kasparov가 가지고 있지 않은 1987-2012 년의 축적 된 지식을 가지고 있기 때문에 이론을 여는 데있어서 우위를 차지하고 있습니다.

그러나 Kasparov는 아마도 Carlsen보다 강력한 선수 일 것입니다. 2000 년 6 월 FIDE Top 100 List (가장 오래된 것)를 취하면 2849 Elo의 Kasparov가 99 명의 팔로워 (Elo 거리 208 점)에 대해 평균 2641의 경쟁자 인 반면 Fide Top 100의 Calsen과 경쟁한다는 것을 알 수 있습니다. 2012 년 12 월, 2848 Elo는 99 명의 팔로워 (Elo 거리 146 점)에 대해 평균 2702의 경쟁을합니다.

Elo는 절대 값이 아닌 점의 차이에 대한 것입니다 (Elo의 100 점 차이는 플레이어 A가 플레이어 B보다 2 배 더 우수하다는 것을 의미하고 200 포인트는 4 배 더 우수함을 의미합니다). 카스파로프는 99 명의 팔로워보다 평균 4 배 이상 더 나은 반면, Carlsen은 99 명의 팔로워보다 평균 3 배 정도 더 낮았습니다.

Kasparov가 99 명의 추종자와 최대 거리를 가지고 있고 그 거리를 Carlsen과 최고로 비교했다면 99 개의 데이터 포인트, 특이 치 (다른 천재와 같은)로 인해 실제로 가장 큰 선수를 결정할 수 있습니다. 그것을 완화하십시오.

그러나 Carlsen 또는 Kasparov가 실제로 누가 더 나은지 걱정하는지 궁금합니다.


3
칼슨보다 강력한 선수라는 카스파로프에 대한 당신의 주장은 각각을 다음 99 최고의 선수와 비교하는 데 달려 있습니다. 엘로 등급은 상대적이지만, 논란의 여지가없는 두 번째 가정, 즉 오늘날 다음 99 명의 선수는 카스파로프의 전성기의 다음 99 명과 동일한 평균 재생 강도를 가졌다는 것을 잘 알고 있습니다. 두 번째 가정이 맞지 않으면 Kasparov와 Carlsen을 다른 표준과 비교하는 것입니다. 오늘 카스파로프 시대와 같은 사람들의 풀을 찾아야합니다. 그 수영장은 아마도 최고 그랜드 마스터가 아닌 평범한 초보자 일 것입니다.
Thucydides4111.

4

엘로 시스템에는 두 가지 구성 요소가있었습니다. 하나는 역사와 무관했으며 다른 하나는 역사와 무관했습니다. 사건이나 일정 기간 동안 "성능 등급"을 생성하는 그의 시스템에는 역사적 구성 요소가 없었습니다. 지정된 시간 동안 단순히 성능의 척도였습니다. (메모리는이 시점에 저를 실패,하지만 난 생각 그가 FIDE에 대한 등급을 계산했을 때이 그가 사용되는 방법이다.)

그러나 전 세계 연합에서 사용하는 Elo 시스템에는 이전 구성 요소의 변화 인 델타를 계산하여 등급을 계산한다는 점에서 역사적 구성 요소가 있습니다.

역사적으로 기반을 둔 시스템은 자연스럽게 수축하는 경향이 있습니다. 시스템은 새 점이 작성되지 않은 닫힌 시스템입니다. 따라서 새로운 플레이어가 들어와 기존 플레이어에서 포인트를 얻은 다음 (죽음 또는 퇴직을 통해) 종료하여 모든 포인트를 다음 번 떠오르는 플레이어 배치로 되돌립니다.

이를 보완하기 위해 많은 아이디어가 시도되었으며, 일부 아이디어는 다른 아이디어보다 우수합니다. 이에 더해 70 년대 초 USCF의 상업적 압력으로 인해 등급이 더 빨라졌습니다. 책 등)과 인플레이션은 역사의 어떤 시점에서 실제적인 일이었습니다.

엘로의 시스템은 정상 (종) 곡선을 기반으로 했으므로 극단적으로 측정하여 인플레이션을 측정하고 측정하는 것은 말이되지 않습니다. 실제 강도 나 인플레이션의 변화보다 등급이 매겨진 총 플레이어 수에 의해 극한의 영향을받을 가능성이 높습니다.


1

간단한 생각이 있습니다. 20 년 전의 등급을 가진 다른 체스 컴퓨터와의 재생을 통해 20 년 전의 등급을받은 체스 컴퓨터 (하드웨어 + 소프트웨어)를 보자. 이제 오늘날의 등급으로 알려진 최신 체스 컴퓨터와의 게임을 통해 현재 등급 (정확히 동일한 하드웨어와 정확히 동일한 소프트웨어)을 측정 해 봅시다. 두 측정 값의 차이는 지난 20 년 동안 등급 인플레이션을 구성합니다. 충분히 간단합니까?


그것은 인간 플레이어가 아닌 컴퓨터 의 등급 인플레이션 어느 정도 계산할 것 입니다. 인간은 컴퓨터와 다른 방식으로 게임을합니다.
Glorfindel

1

Regan-Haworth 논문의 결론은 게임의 다른 컴퓨터 분석, 더 나은 소프트 및 하드웨어 및 고급 수학 방법과 모순되는 것처럼 보입니다 . 예를 들어, 1977 년 Karpov는 2001 년 Kasparov와 2008 년 Anand (포인트의 약 47 %에 도달 할 것으로 예상)보다 약간 낮은 수준에서 연주했으며 2005 년 Topalov와 Ponomariov보다 실제로 더 우수하다고 결론을 내 렸습니다 (표 9 참조). Kasparov-2001은 Karpov-1977보다 150 포인트 높은 점수를 받았기 때문에 점수의 70 %를 차지할 것으로 예상됩니다. 등급 인플레이션이 없다는 주장으로 이것을 조정하는 방법을 모르겠습니다.

또한 문제의 암시 적 주장과 달리 등급이 플레이어 풀의 전체 강도의 변화를 반영하는 메커니즘은 없습니다 . 경험적으로 2600 플레이어의 전형적인 강도가 특정 기간 동안 변경되지 않았지만 이것은 ELO 시스템의 기본 속성을 반영하는 것이 아니라 우연의 일치 일 뿐이며, 일반화 할 수는 없습니다.

순진하게 인플레이션을 정의하고 상위 100 명 플레이어의 평균 등급을 측정한다면, 이 링크 에서 볼 수 있듯이 2012 년까지 꾸준한 인플레이션이 있었으며 그 이후로 인플레이션이 없었습니다. 그리고 지난 7 년간 2705 .


0

먼저, 당신이 가장 의미하는 바를 정의해야합니다. 예를 들어, 당신이 자신의 시대에 가장 지배적 인 선수라는 것을 가장 잘 나타내는가? 또는 플레이어의 품질이 다른 모든 플레이어보다 우수하다는 의미입니까? 그리고 품질이 당신의 의미라면, 품질을 어떻게 정의합니까?

Paul Morphy가 아마도 가장 지배적 인 선수 일 것입니다. 예를 들어, 12 살 때 3-0으로 10 점 (Lowenthal)을 물리 쳤다. Edo와 chessmetrics에 따르면 그는 아마도 12 세의 나이에 이미 세계 최고의 선수 중 한 명일 것입니다! 21 세의 나이에 5 명의 상위 10 명 (Bird, Barnes, Boden, De Reviere, Lowenthal)과 동시에 3-2로 득점했습니다.

그러나 대부분은 지배가 누가 최고인지에 대한 빈약 한 지표라고 주장합니다. 결국, Morphy는 최초의 현대 체스 플레이어로 묘사되었습니다. 그의 경쟁은 후속 챔피언에 비해 약했습니다.

사용 된 또 다른 정의는 플레이 품질입니다. 그러나이 정의에는 많은 문제가 있습니다. 1900 수백 년 동안 많은 개인들은 Steinitz 또는 Lasker가 개방 및 현대 이론에 대한 지식이 과거의 플레이어보다 우수하다고 주장하면서 역대 최고의 선수 였다고 주장했다. 그러나 루이스 폴슨 (Louis Paulsen)은이 가설에 대해 매우 영리한 주장을했습니다. 그는 사진 기억력이 있고 19 세까지 루이지애나 바코드를 기억 한 Morphy는 1 년 안에 개통과 현대 이론을 배우고 현대 체스 선수들과 성공적으로 경쟁 할 수 있다고 주장했다.

Regan은 체스 컴퓨터와 현대적인 훈련 방법에 접근 할 수있는 현대 체스 플레이어는 과거의 플레이어보다 컴퓨터와 같은 역할을한다고 주장합니다. 그들이 컴퓨터에 의해 훈련 되었기 때문에 놀랍지는 않지만 현대 플레이어가 실제로 더 낫다는 것을 의미합니까? 이것은 Fischer 또는 Capablanca가 최신 컴퓨터에 액세스 할 수 있다면 어떻게 할 것인가에 대한 의문을 제기합니다.

또한, Regan 교수의 분석 컴퓨터는 단지 5 년의 기간이 소요되고 분석에 포함 된 선수는 언급되지 않았기 때문에 다소 불완전한 것으로 나타났습니다. Matej Guid 교수와 Ivan Bratko 교수의보다 철저한 컴퓨터 분석 결과, Capablanca는 사실 현대 플레이어보다 컴퓨터와 같은 역할을한다는 것을 발견했습니다! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-. 그러나 Guid와 Bratko는 Capablanca가 더 나은 선수라는 결론을 내리는 데 문제가 있다고 언급했습니다. 어쩌면 그의 차분한 스타일로 인해 실수를 저지르는 위치가 줄어 들었습니다. 따라서 그의 맹렬한 비율은 더 낮았지만 공격적인 선수보다 적들에게 적은 압력을가했습니다. 사실, Capablanca는 그의 동시대 사람들에 비해 높은 추첨 비율을 가졌습니다.

반면, 카스파로프와 같은 전술이 강한 플레이어는 자신의 플레이 스타일에 불이익을받을 수 있으며, 이로 인해 컴퓨터의 위치가 특히 우수합니다. 실제로, 컴퓨터는 전술이 덜 역할을하는 위치 또는 특히 폐쇄 위치 플레이어보다 전술 플레이어에 대해 더 나은 성능을 발휘합니다. 따라서 컴퓨터 감지 오류 수에 의존하는 컴퓨터 분석은 분리 된 폐쇄 위치 플레이어를 선호합니다. 반면에 카스파로프와 같은 공격적인 선수는 다른 선수보다 전술적 인 실수를 할 수 있습니다.

따라서 100 이동 당 오류 비율을 계산하지 않는 오류 가중치 시스템이 필요합니다 (기본적으로 Regan 및 Guid 및 Bratko가 수행 한 작업). 대신 오류율과 상대 오류율의 차이를 계산해야합니다. 결국, 체스는 상대방보다 적은 오류를 저지르는 것입니다. 더 많은 오류를 유발하기 위해 상대방에게 압력을 가하는 것은 좋은 품질로 간주됩니다.

그러나 수정 된 계산 방법으로 인해 컴퓨터 분석에서 상대방의 힘을 고려하지 않는 또 다른 문제가 발생합니다. 예를 들어, Larson은 공격적인 (최적) 스타일로 인해 낮은 등급의 플레이어보다 우위를 점했기 때문에 체스 메트릭스 등급이 매우 높을 수 있습니다. 그러나 그는 평등 한 등급의 플레이어와의 게임에서 어려움을 겪었습니다. 다른 플레이어는 자신이 다른 높은 등급의 플레이어와의 경기에서 너무 낙관적이라고 종종 주장했습니다. 이 문제를 피하기 위해 컴퓨터 오류 검사 분석은 강력한 경쟁자 (예 : 상위 10, 20 또는 100 명의 플레이어)와의 게임 만 봐야합니다. 그러나 시간이 지남에 따라 경쟁이 치열 해지는 문제는 여전히 해결되지 않습니다.

Chessmetrics와 같은 백 등급을 보면 재생 품질 향상 문제를 해결할 수 있습니까? 사실, 나는에도 백 등급 시스템을 선호합니다 http://www.edochess.ca/통계적 가정이 더 좋기 때문입니다. 예를 들어, Chessmetrics는 40 세가되면 플레이어의 최고 등급이 발생한다고 가정합니다. 나는 모든 사람이 그 나이 이전에 체스를 포기하거나 그들의 플레이가 몇 년 동안 최고 수준 (예를 들어, Harry Nelson Pillsbury, Charousek, Fischer, Morphy, Rubinstein, Fine)에 해당한다고 생각한다. 불행히도, Edo는 1811 년에서 1920 년까지의 선수 등급 만 비교합니다. Edo에 따르면 Capablanca와 Morphy는이 시대에 가장 높은 2 명의 선수로 평가되었습니다. Chessmetrics에 따르면 Capablanca와 Lasker는 두 명의 최고의 선수였습니다 (Morphy는 상위 10 대도 만들지 못했습니다). Chessmetrics에 따르면 Zukertort, Steinitz, Tarrasch, Lasker, Pillsbury, Maroczy, Marshall, Janowsky, Chigorin, Schelecter, Blackburne, Duras, Teichmann, Neumann, Vidmar, Gunsberg, Rubinstein 및 Burn이 Morphy보다 우수했습니다.

시간이 지남에 따라 특정 체스 시대에 혁신이 지배하고 시간이 지남에 따라 혁신이 점점 어려워지는 경우 경쟁이 치열 해지면서 30 대 플레이어의 경기 기록을 보면 진정한 지배력을 측정 할 수 없습니다. 즉, Magnus Carlsen이 과거 챔피언보다 상대를 지배하기가 훨씬 어렵습니다. 과거 등급을 보면 최고 플레이어 등급 간의 차이의 크기가 시간이 지남에 따라 감소하고 있음을 쉽게 알 수 있습니다. 따라서 시간이 지남에 따라 지배하기가 어려운 Edo 유형 통계 모델이 이전에 시도한 것보다 더 나은 접근 방법이라고 생각합니다. 예를 들어, Fischer는 20 연승을 거뒀 기 때문에 그의 시대에 꽤 지배적 인 선수였습니다. 카스파로프 (Kasparov) 또는 카르 포프 (Karpov)가이긴 행진과 비교하여 가장 긴 행진은 무엇입니까? Seirawan에 따르면, 그들의 가장 긴 승리는 7 경기였습니다.

물론, 나는이기는 줄무늬가 좋은 척도라고 주장하지 않습니다. 나는 등급 또는 다른 상위 플레이어와의 개별 경기에서 지배력이 현재의 역 등급 시스템에서 명시 적으로 고려되지 않는 유용한 지표라고 주장하고 있습니다.

제 꿈 분석은 5 년마다 상위 20 ~ 30 명의 플레이어 만 포함하는 데이터베이스를 기반으로에도 등급을 사용하는 것입니다. 이 분석을 완료 한 후 우세 요인으로 결과를 다시 가중치를 매 깁니다. 즉, 더 최근의 플레이어는 시간이 지남에 따라 지배의 어려움의 궤적을 추정하여 계산되는 보너스 요소를 얻습니다 (시간이 지남에 따라 상위 30 명의 플레이어 간의 등급 불균형 감소). 다음으로, 상대방이 자신의 실수를 뺀 체스 컴퓨터 계산 실수의 플레이어 비율을 비교하여이 분석의 유효성을 검사합니다. 이것이 위의 사항을 무효화하는 경우, 내 지배 요인을 고려한 후에도 최신 상위 플레이어가 더 정확하게 플레이하는 경향이 있음을 나타내는 경우 컴퓨터 오류 검사 분석에 따라 가중치를 재조정해야합니다.

내 시선을 기반으로 한 내 추측은 카스파로프가 잘 할 것이라는 것입니다. 그러나 그것은 단지 추측입니다.


2
이것은 질문에 대답하지 않는 것 같습니다.
Herb Wolfe

제 요점은 체스 능력을 정의 할 때까지 등급 인플레이션에 관한 질문에 대답 할 수 없다는 것입니다. 나는 등급 인플레이션을 조정하거나 시간이 지남에 따라 체스 챔피언의 능력이 어떻게 다른지 결정하려고 시도한 연구를 검토했습니다. 문제는 연구원들이 체스 능력이 무엇인지에 대한 그들의 가정을 실제로 확인하지 않았다는 것입니다. 제 생각에 체스 능력을 정의하지 않으면 체스 능력이 시간이 지남에 따라 변하는 지 또는 등급 인플레이션에 대해 말할 수 있는지에 대한 질문에 대답 할 수 없습니다.
ToddM
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.