다음은 "Million Base"PGN 데이터베이스를 기반으로 한 더러운 분석입니다. 나는 약간의 급한 일로 이것을 했으므로 프로그래밍이나 논리에 오류가있을 수 있습니다. 너무 진지한 용도로 사용하지 마십시오. 업데이트-참고 : 실제로, 나는 데이터 세트에 실수를하고 처음 백만 개의 레코드로 제한하는 것을 알았습니다. 자유 시간에 다시 업데이트를 실행하면 업데이트를 게시 할 것입니다. 그럼에도 불구하고이 숫자는 흥미로워 야합니다.
데이터 얻기 :
이 URL 에서 Million Base 1.74 파일을 얻었습니다. 실제로 다운로드하려고 할 때 top-5000.nl 사이트가 404 인 것 같습니다. 이 파일에는 PGN 내보내기 형식 (즉, 파싱하기 쉬운)의 백만 개가 넘는 게임이 포함되어 있습니다.
안타깝게도 게임의 60 % 이상에 등급 정보 ( "WhiteELO"및 "BlackELO"태그를 찾고 있음)가 없었으며 두 게임 모두에 대한 등급이 더 적었습니다. 결국, 나는 가능한 한 큰 샘플 크기를 얻기로 결정했고, 다른 플레이어의 등급에 관계없이 자신의 등급이 알려진 경우 플레이어의 움직임을 세었다.
방법:
게임은 하나 하나를 분석하고, 플레이어의 등급이 알려진 경우, 모든 자신의 그 게임에 대한 움직임은 플레이어의 등급 그룹의 집계에 추가 될 것입니다. 등급을 100 개의 그룹으로 나누기로 결정했습니다. 예를 들어 1600에서 1699는 단일 그룹이었습니다.
PGN의 실제 이동 텍스트는 SAN이기 때문에 기사 (N), 주교 (B), 루크 (R), 여왕 (Q) 및 왕 (K) 이동은 모두 조각의 문자로 시작하여 이동을 계산하는 데 다음 단축키를 사용했습니다. . Castling (OO 및 OOO)은 특별한 경우로 별도로 계산되었습니다. 나머지 모든 동작은 추가 검사없이 폰 동작으로 계산되었습니다.
데이터 정리가 수행되지 않았습니다. 특이 치를 식별하고 제거하려는 시도는 없었습니다 (예 : 지나치게 짧고 긴 게임 등). 나는 다음과 같은 분석에 포함시키지 않았지만, 1600 이하의 평가 결과는이 게임의 샘플 크기가 100보다 훨씬 낮아서 결과에 큰 변화를 가져 왔습니다. 원시 데이터는이 게시물 끝에 제공됩니다.
정보의 일부 단점 : 현재 매우 기본적인 합계 만 수집했으며 평균을 제공했습니다. 나는 일반적으로 데이터가 정상적으로 분포되지는 않지만 실제로 실제 카운트를 출력하고 통계 프로그램을 통해 실행하지 않으면 더 많은 것을 말할 수 없다고 확신합니다. 관심이 있다면 그렇게 할 수 있습니다. 현재로서는 신뢰 구간 또는 평균이 나타내는 숫자 분포에 대한 기타 정보가 없음을 의미합니다. 또한 데이터 세트가 몇 년에 걸쳐 있는지 확인하지 않았습니다. 몇 년을 나타내는 경우 전체 필드 강도를 수정하는 것이 유리할 수 있습니다.
일부 트렌드 :
플레이어 등급에 대한 단어-가장 자주 발생하는 등급 그룹은 2400 ~ 2500, 2500 ~ 2600 및 2300 ~ 2400 순입니다.이 등급 그룹은 계산 된 게임의 72 %를 제공했습니다.
실제 결과를 보면 평균 게임 길이는 약간 놀랍습니다.
2000 년 이하의 평가 그룹은 모두 높은 그룹보다 게임이 훨씬 짧았습니다. 이것은 그들이 더 강한 상대를 플레이 할 가능성 (위의 평균 등급 참조)과 적은 움직임으로 패배했을 가능성에 의해 잘 설명 될 수 있습니다. 이는 샘플 등급이 더 작을 수 있지만 최상위 등급 그룹이 수행하는 약간 더 짧은 게임에 대한 것 같습니다.
평균 게임 길이의 상대적으로 큰 차이는 조각이 이동하는 총 횟수가 아닌 특정 조각의 이동 빈도를 제공하는 것이 더 공정한 비교라는 것을 의미했습니다. 주파수를 계산하면 다음 그래프가 나타납니다.
다음과 같은 경향이 있습니다.
- 기사 이동 빈도는 등급에 따라 약간 하락하는 것으로 보입니다.
- 주교는 약 2000 년까지 추세를 하향 이동 한 다음 천천히 상향 조정합니다.
- 루크 (Rook)는 대략 같은 시점에서 트렌드를 급격히 상승 시키며, 주교가 하이 레벨 플레이를하는 것보다 더 자주 움직입니다.
- 폰의 움직임은 등급이 올라감에 따라 약간 하락하는 것으로 보입니다. 가장 큰 예외는 2800에서 2900까지의 최상위 범주입니다. 이는 다음으로 넘어갑니다.
- 최상위 등급 범주는 많은 측정에서 특이 치 또는 카운터 추세를 제공합니다. 이것은 다양한 방법으로 설명 될 수 있습니다.-1) 샘플 크기는 363에서 상당히 작지만, 가장 작은 샘플 크기의 10 %는 포함되지 않습니다. 2) 순위 그룹의 최상위에 있기 때문에 자신보다 "더 강한"상대를 플레이하지 않습니다. 3) 또는 단순히이 레벨에서 그들의 플레이 스타일이 그 아래 레벨을 넘어 섰습니다. 내 추측은 1)과 2)의 조합 일 것입니다.
- 퀸 무브와 캐스터 무브의 차이는 두 경우 모두 작은 추세를 제외하고는 실제 추세없이 매우 작습니다.
- 왕의 움직임의 빈도는 가장 큰 차이가 있습니다. 명확한 추세는 보이지 않으며 방향이 3-4 번 바뀌는 것 같습니다.
추가 분석
향후 분석을위한 몇 가지 아이디어 :
- 기본 통계 수정 : 매우 짧고 긴 게임은 제외해야한다고 생각합니다. 또한 실제 수의 분포는 매우 중요합니다.
- 분석을 더 분할하면 흥미로운 결과가 나올 수도 있습니다. 예를 들어, 흑백의 주파수가 어떻게 일치하는지 알고 싶습니다 (동일하거나 다른가? 왜?).
- 등급 차이에 의한 분류도 흥미로울 수 있습니다. 훨씬 강한 상대 (예 : 200 점 이상)를 플레이하는 플레이어가 다른 이동 빈도로 플레이합니까? 불행히도 이것은 두 선수의 ELO를 모두 알아야하며,이 데이터 세트에서는 드물다.
- 짧은 성 대 긴 성 경향도 등급에 따라 다를 수 있습니다.
- 조각 프로모션 통계, 일부 가벼운 구조 분석 (예 : 2 배의 폰, 동반자, 핀, 포크, 등급으로 표시)은 통찰력이있을 수 있습니다.
- 실제 보드에서 조각 배치의 "열지도"는 등급으로 표시되어있을 수도 있습니다.
CSV 형식의 데이터 집계
데이터를 가지고 놀고 싶은 사람들은 자유롭게 느끼십시오.
평가 범위, 샘플 크기, 평균 게임 길이, 평균 폰 이동, 평균 기사 이동, 평균 주교 이동, 평균 루크 이동, 평균 여왕 이동, 평균 킹 이동, 평균 캐슬 링
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857