이 질문은 체스 게임에서 평균적으로 다른 유형의 조각이 얼마나 자주 이동하는지에 대한 Ramon Snir의 초기 질문의 파생물입니다 . 내 질문:

약한 플레이어의 게임과 반대로 강한 플레이어의 게임을 볼 때 주어진 유형의 조각에 대한 상대적인 움직임 수가 다른가? (예를 들어, 약한 플레이어는 조각 이동을 희생하여 더 많은 폰 이동을하는 경향이 있거나 여왕 이동을 너무 많이합니다. 모르겠습니다.)

다른 사람이 큰 데이터베이스에서 추출한 원시 데이터를 사용하여 이전 질문에 대한 답변을 제공 할 수있었습니다 . 이 데이터는 그랜드 마스터 플레이에서 약한 아마추어 플레이에 이르기까지 4M + 게임 샘플에서 얻은 것이며 여기에 주어진 총 이동 수는 플레이어의 강도에 따라 구별되지 않습니다. 내 질문에 대답하려면 강력한 플레이어 간의 게임과 약한 플레이어 간의 게임에 대한 별도의 데이터를 가져와야하며 일화가 아닌 데이터로 뒷받침되는 답변을 찾고 있습니다.

내 질문의 더 구체적인 형태는 다음과 같습니다.

Elo 등급 임계 값 N이 있습니까? 예를 들어 게임의 평균 움직임 수를 조각별로 분류하면 N보다 큰 플레이어가 등장하는 게임에서 찾은 것과 게임에서 찾은 것 사이에 큰 차이가 있습니다. N 이하의 플레이어가 등장

이런 종류의 것, 즉 데이터 마이닝으로 탐지 할 수있는 더 강한 플레이어와 더 약한 플레이어 사이의 구체적인 차이가 발견 될 수 있다면 흥미로울 것입니다. 이러한 결과는 플레이어를 방해하는 특정 행동 또는 반대로 추진하는 행동을 가리킬 수 있습니다. 아마 이런 종류의 데이터를 보면 그러한 차이가 없을 수도 있지만, 그 점에 대해서도 관심이 있습니다.

learning statistics pieces

— ETD
소스

나는 그러한 집계 된 데이터에 대해 조금 의심 스럽다. 왜냐하면 요점을 놓칠 수 있기 때문이다. 일부 게임은 폰을 밀어서 다른 게임과 플레이함으로써 결정됩니다. 움직이는 조각의 빈도는 움직임의 품질에 대해 아무 말도하지 않습니다. 일반적으로 개구부에서 한 조각을 자주 움직이지 말아야한다는 규칙이 있습니다. 그러나 강한 전술을 가진 선수는이 전술이이 위치에 정당하다면 때때로이 전략을 채택합니다.

— Michael

@Michael, 나는 내가 요구하는 것과 같은 요소 자체가 좋은 플레이를 나타내는 것이 아니라는 것에 전적으로 동의합니다. 예를 들어 Aronian과 같은 상대 주파수로 내 작품 유형을 이동한다고해서 당연히 내가 잘 플레이한다는 의미는 아닙니다. 그러나 이것이 바로 Elo 1800보다 위와 같은 이유 일 수 있습니다.이 상대 주파수에는 감지 할 수있는 차이가 없지만 (1800보다 큰 범위의 능력이 있지만) 1800보다 낮 으면 크게 왜곡됩니다. 데이터에서 찾은 결과 는 플레이어 뒤의 한 요소 가 해당 강도 임계 값 아래에 있음을 나타낼 수 있습니다.

— ETD

데이터는 그랜드 마스터가 다른 그랜드 마스터 와 마주 칠 때 , 그리고 더 적은 수의 플레이어와 마주 칠 때 수행하는 일을 보여줍니다 . 이상적으로는 더 나은 선수와 더 나쁜 선수가 동일한 위치에서 수행하는 것을 비교하고 싶지만 오프닝을 제외하고는 데이터 마이닝을 통해 불가능할 것입니다.

— Evan Harper

@ EdDean-이것은 매우 흥미로운 주제입니다. 그가 4M + 게임을 정확히 어디서 얻었는지 아십니까? 평판이 좋은 무료 소스에서 크기가 큰 게임 (예 : 100K + 게임)을 얻을 수있는 곳이 있습니까? "온라인 검색 가능"과는 반대로 쉽게 다운로드 할 수있는 소스를 생각하고 있습니다.

— Daniel B

후속 조치로 Wikipedia에는 체스 게임 컬렉션 에 대한 멋진 페이지가 있습니다 . 이 중 첫 번째 링크는 가장 유망한 것으로 보였지만 (다운로드 할 압축 된 PGN 수는 상대적으로 적음) 큰 섹션이 누락되어 (ECO 코드 B-E) 분석이 일방적이고 무용지물이되었습니다.

— Daniel B

다음은 "Million Base"PGN 데이터베이스를 기반으로 한 더러운 분석입니다. 나는 약간의 급한 일로 이것을 했으므로 프로그래밍이나 논리에 오류가있을 수 있습니다. 너무 진지한 용도로 사용하지 마십시오. 업데이트-참고 : 실제로, 나는 데이터 세트에 실수를하고 처음 백만 개의 레코드로 제한하는 것을 알았습니다. 자유 시간에 다시 업데이트를 실행하면 업데이트를 게시 할 것입니다. 그럼에도 불구하고이 숫자는 흥미로워 야합니다.

데이터 얻기 :

이 URL 에서 Million Base 1.74 파일을 얻었습니다. 실제로 다운로드하려고 할 때 top-5000.nl 사이트가 404 인 것 같습니다. 이 파일에는 PGN 내보내기 형식 (즉, 파싱하기 쉬운)의 백만 개가 넘는 게임이 포함되어 있습니다.

안타깝게도 게임의 60 % 이상에 등급 정보 ( "WhiteELO"및 "BlackELO"태그를 찾고 있음)가 없었으며 두 게임 모두에 대한 등급이 더 적었습니다. 결국, 나는 가능한 한 큰 샘플 크기를 얻기로 결정했고, 다른 플레이어의 등급에 관계없이 자신의 등급이 알려진 경우 플레이어의 움직임을 세었다.

방법:

게임은 하나 하나를 분석하고, 플레이어의 등급이 알려진 경우, 모든 자신의 그 게임에 대한 움직임은 플레이어의 등급 그룹의 집계에 추가 될 것입니다. 등급을 100 개의 그룹으로 나누기로 결정했습니다. 예를 들어 1600에서 1699는 단일 그룹이었습니다.

PGN의 실제 이동 텍스트는 SAN이기 때문에 기사 (N), 주교 (B), 루크 (R), 여왕 (Q) 및 왕 (K) 이동은 모두 조각의 문자로 시작하여 이동을 계산하는 데 다음 단축키를 사용했습니다. . Castling (OO 및 OOO)은 특별한 경우로 별도로 계산되었습니다. 나머지 모든 동작은 추가 검사없이 폰 동작으로 계산되었습니다.

데이터 정리가 수행되지 않았습니다. 특이 치를 식별하고 제거하려는 시도는 없었습니다 (예 : 지나치게 짧고 긴 게임 등). 나는 다음과 같은 분석에 포함시키지 않았지만, 1600 이하의 평가 결과는이 게임의 샘플 크기가 100보다 훨씬 낮아서 결과에 큰 변화를 가져 왔습니다. 원시 데이터는이 게시물 끝에 제공됩니다.

정보의 일부 단점 : 현재 매우 기본적인 합계 만 수집했으며 평균을 제공했습니다. 나는 일반적으로 데이터가 정상적으로 분포되지는 않지만 실제로 실제 카운트를 출력하고 통계 프로그램을 통해 실행하지 않으면 더 많은 것을 말할 수 없다고 확신합니다. 관심이 있다면 그렇게 할 수 있습니다. 현재로서는 신뢰 구간 또는 평균이 나타내는 숫자 분포에 대한 기타 정보가 없음을 의미합니다. 또한 데이터 세트가 몇 년에 걸쳐 있는지 확인하지 않았습니다. 몇 년을 나타내는 경우 전체 필드 강도를 수정하는 것이 유리할 수 있습니다.

일부 트렌드 :

플레이어 등급에 대한 단어-가장 자주 발생하는 등급 그룹은 2400 ~ 2500, 2500 ~ 2600 및 2300 ~ 2400 순입니다.이 등급 그룹은 계산 된 게임의 72 %를 제공했습니다.

실제 결과를 보면 평균 게임 길이는 약간 놀랍습니다.

평가 그룹 별 평균 이동 수

2000 년 이하의 평가 그룹은 모두 높은 그룹보다 게임이 훨씬 짧았습니다. 이것은 그들이 더 강한 상대를 플레이 할 가능성 (위의 평균 등급 참조)과 적은 움직임으로 패배했을 가능성에 의해 잘 설명 될 수 있습니다. 이는 샘플 등급이 더 작을 수 있지만 최상위 등급 그룹이 수행하는 약간 더 짧은 게임에 대한 것 같습니다.

평균 게임 길이의 상대적으로 큰 차이는 조각이 이동하는 총 횟수가 아닌 특정 조각의 이동 빈도를 제공하는 것이 더 공정한 비교라는 것을 의미했습니다. 주파수를 계산하면 다음 그래프가 나타납니다.

조각별로 주파수 이동

다음과 같은 경향이 있습니다.

기사 이동 빈도는 등급에 따라 약간 하락하는 것으로 보입니다.
주교는 약 2000 년까지 추세를 하향 이동 한 다음 천천히 상향 조정합니다.
루크 (Rook)는 대략 같은 시점에서 트렌드를 급격히 상승 시키며, 주교가 하이 레벨 플레이를하는 것보다 더 자주 움직입니다.
폰의 움직임은 등급이 올라감에 따라 약간 하락하는 것으로 보입니다. 가장 큰 예외는 2800에서 2900까지의 최상위 범주입니다. 이는 다음으로 넘어갑니다.
최상위 등급 범주는 많은 측정에서 특이 치 또는 카운터 추세를 제공합니다. 이것은 다양한 방법으로 설명 될 수 있습니다.-1) 샘플 크기는 363에서 상당히 작지만, 가장 작은 샘플 크기의 10 %는 포함되지 않습니다. 2) 순위 그룹의 최상위에 있기 때문에 자신보다 "더 강한"상대를 플레이하지 않습니다. 3) 또는 단순히이 레벨에서 그들의 플레이 스타일이 그 아래 레벨을 넘어 섰습니다. 내 추측은 1)과 2)의 조합 일 것입니다.
퀸 무브와 캐스터 무브의 차이는 두 경우 모두 작은 추세를 제외하고는 실제 추세없이 매우 작습니다.
왕의 움직임의 빈도는 가장 큰 차이가 있습니다. 명확한 추세는 보이지 않으며 방향이 3-4 번 바뀌는 것 같습니다.

추가 분석

향후 분석을위한 몇 가지 아이디어 :

기본 통계 수정 : 매우 짧고 긴 게임은 제외해야한다고 생각합니다. 또한 실제 수의 분포는 매우 중요합니다.
분석을 더 분할하면 흥미로운 결과가 나올 수도 있습니다. 예를 들어, 흑백의 주파수가 어떻게 일치하는지 알고 싶습니다 (동일하거나 다른가? 왜?).
등급 차이에 의한 분류도 흥미로울 수 있습니다. 훨씬 강한 상대 (예 : 200 점 이상)를 플레이하는 플레이어가 다른 이동 빈도로 플레이합니까? 불행히도 이것은 두 선수의 ELO를 모두 알아야하며,이 데이터 세트에서는 드물다.
짧은 성 대 긴 성 경향도 등급에 따라 다를 수 있습니다.
조각 프로모션 통계, 일부 가벼운 구조 분석 (예 : 2 배의 폰, 동반자, 핀, 포크, 등급으로 표시)은 통찰력이있을 수 있습니다.
실제 보드에서 조각 배치의 "열지도"는 등급으로 표시되어있을 수도 있습니다.

CSV 형식의 데이터 집계

데이터를 가지고 놀고 싶은 사람들은 자유롭게 느끼십시오.

평가 범위, 샘플 크기, 평균 게임 길이, 평균 폰 이동, 평균 기사 이동, 평균 주교 이동, 평균 루크 이동, 평균 여왕 이동, 평균 킹 이동, 평균 캐슬 링

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857

— 다니엘 B
소스

좋은! 여기서 숫자를 실행 해 주셔서 감사합니다. 덧붙여서, "추가 분석"섹션에있는 아이디어 중 어느 것이든지 잘 알고 있다고 생각되면 망설이지 마십시오.

— ETD

@EdDean에게 감사하며 시간이 허락 할 때 추가 분석을 할 것입니다. 또한 개선 할 수있는 몇 가지 개선 사항 (예 : 블리츠 및 시뮬 탄 게임 등을 필터링)도 발견 했으므로 약간의 작업이 필요할 것입니다. 무언가가 있으면 업데이트를 만듭니다.

— Daniel B

와우. 그것은 정답이었습니다. 환상적인.

— James Tomasino

예를 들어, 강한 선수들 사이에서 루크 이동 횟수가 증가하면 루크가 비슷한 위치에서 더 자주 움직인다는 것보다 루크 엔딩이 길어질 가능성이 높다는 사실에 놀라지 않을 것입니다.

— dfan

@dfan 나는이 숫자들이 다양한 2 차 효과와 더 관련이있을 수 있다고 생각한다. 예를 들어, 등급이 낮은 플레이어는 조기에 실수를하고 긴 게임에 참여하지 않는 등이 더 정확할 수있다. 불행히도 그것들을 구현할 시간이 없습니다.

— Daniel B

강한 플레이어는 약한 플레이어와 다른 상대 주파수로 조각을 움직입니까?

데이터 얻기 :

방법:

일부 트렌드 :

추가 분석

CSV 형식의 데이터 집계