컴퓨터 평가 : 얼마나 신뢰할 수 있습니까?


14

Rybka와 프리츠 (12)는 흰색에 대한 내 친구에게 +3의 평가를 준 이 최종 목표 위치 ,

움직일 화이트

무승부로 밝혀졌습니다. 그러나 컴퓨터에서 +3하면 완벽한 플레이로 승리를 보장받을 수 있다고 들었습니다. 방금 잘못 들었어? 컴퓨터 평가는 일반적으로 어떻게 해석되어야합니까? <.5의 개방 장점은 무엇을 의미합니까?


3
나는 "보장 된 승리"의견에 도전 할 것이다. 평가 번호는 휴리스틱 표시기, 기본적으로 컴퓨터가 해당 위치에 대해 갖는 "느낌"입니다. 엔드 게임은 "놀랄만 한"결과를 낳을 수 있으며, 컴퓨터가 가능한 모든 패턴을 감지하도록 프로그래밍되지 않은 경우 (또는 모든 방법으로 계산할 수있는 경우) 일부를 놓칠 수 있습니다. 다른 방법으로 보면 +3이 실제로 보장된다면 +3이 아니고 + 무한대가됩니다.
Daniel B

기록을 위해, 나는 이것을 리치 7 피스 테이블베이스로 확인했으며 실제로는 무승부입니다.
PhishMaster

답변:


8

여기 몇 가지가 있습니다.

먼저, 각 프로그램마다 점수를 직접 비교할 수없는 자체 평가 방법이 있습니다. 예를 들어, 나는 최근 Rybka에 대해 StockFish를 운영하고 있었고 Stockfish의 점수는 Rybka의 점수의 약 두 배인 것을 발견했습니다. 나는 이것에 놀랐다. 그러나 1의 점수가 항상 "1 전당포"를 의미하는 것은 아니다. 우리가 봐야 할 것은 점수가 어떻게 변하는 가라고 생각합니다. 어제 내가 본 또 다른 호기심은 (다른 질문 중 하나에 우연히 대답하는 동안) Stockfish의 평가 알고리즘이 홀수를 매우 좋아하지 않는다는 것입니다. 실제로 대부분의 점수는 .04의 배수였습니다. 값의 크기가 임의적이라는 점을 감안할 때 기계가 메이트를 찾았다 고 주장하지 않는 한 특정 값이 "확실한 승리"를 의미한다고 가정하지 않습니다.

둘째, 최종 게임을 해결하려면 많은 검색 깊이가 필요하기 때문에 최종 게임 테이블베이스가 만들어졌습니다. 토너먼트 속도로 재생되는 컴퓨터는 제대로 작동하지 않습니다. 며칠 전에 다른 게임을 진행하면서이 사이트에서 한 쪽이 유리하다고 발표했습니다. Ed는 테이블베이스를 사용하여 그 자리에 미스터리가 남아 있지 않음을 보여주었습니다. 이론적으로 그려졌습니다. 물론, 완벽한 게임과 무승부 사이에는 큰 차이가 있습니다. 플레이어는 올바른 움직임을 찾아야합니다.


게임의 초기 단계에서 일반적으로 화이트에게 주어진 작은 가치는 기본적으로 화이트가 더 가치있는 부동산을 주장 할 수 있음을 의미합니다. 예를 들어 이동 1에서 White는 e4를 청구하고 e5와 f5를 공격 할 수 있습니다. 블랙은 카운터 수 있습니다. 그러나 White는 Nc3을 플레이하고 a4, b5, d5 및 e4를 공격 / 강화할 수 있습니다. 그러나 블랙은 대응할 수 있습니다. 아주 작은 의미입니다.


마지막으로, 주제 라인의 질문에 답하기 위해-평가는 어려운 사실과 인상적인 검색 깊이를 기반으로하므로 매우 신뢰할 수 있습니다. 물론 기계는 완벽한 것이 아닙니다. 그러나 우리 b- 플레이어는 Stockfish (또는 Rybka)가 적당한 하드웨어에서 GM의 강점에서 플레이한다는 것을 기억해야합니다. 가장 일반적인 하드웨어에서는 FIDE 3200의 등급을 추정합니다.이 수치가 너무 높아 최고의 사람 만 잃을 가능성이 적습니다.

이것이 무엇을 의미하는지 고려하십시오. I (USCF 1650 틱)이없는 없는 (말하자면 2050 USCF)를 한 사람에 대한 기회를 이없는 사람에 기회를 (예를 들어, 2450 USCF) 이있는 사람에 대해 기회를 (예를 들어, 2850 USCF) 은색을 최고 비행 상업 프로그램 에 대한 기회 (FIDE 3200).

따라서 Stockfish가 한 동작이 다른 동작보다 낫다고 말하면 보통 액면가로 간주합니다. 엔드 게임 테이블베이스를 연결하면 메이트 인 30을 알리기 시작합니다.


1
아주 좋은 반응입니다. 나는 항상 1의 평가는 1 폰의 가치가 있다고 생각했습니다. 또한 체스 템포는 문제의 가장 좋은 움직임은 적어도 2 폰 정도의 재료를 얻는 것이므로, 게임의 단계에 관계없이 +2 이상의 엔진 평가가 승리하는 것으로 간주했습니다. 그러나 나는 비축 어에 대한 분석이 이전에 잘못되었다는 것을 발견했으며 어떻게 최종 게임을 올바르게 평가하지 못하는지를 보았습니다. 그 메모에서 최종 게임의 테이블베이스를 어디에서 찾을 수 있는지 알고 있습니까?
chubbycantorset

여기 에드 게시 온라인 6 남자 tablebase는 다음과 같습니다 k4it.de/index.php?topic=egtb&lang=en
토니 에니스

+1 확실한 승리를 "내가 어떤 특정 값 수단을 가정하지 것이다" "이 짝을 발견 기계가 주장하지 않는 한."
ferit

14

엔진마다 수치 평가에 따라 "스케일"이 다릅니다. 예를 들어, Houdini가 +2.00 이상이라고 말하면 많은 플레이가 남아있는 전형적인 미들 게임 포지션에서 White가 우승 이점을 가질 가능성이 높습니다 (여기서도 이유를 포함 시켰습니다). 그러나 Houdini의 소스 코드를 수정하고 평가와 관련된 모든 숫자의 절대 값을 두 배로 늘릴 수 있습니다. 하나는 동일한 힘을 가진 엔진을 가져와 동일한 플레이를 생성하지만 이제 +4.00은 +2.00의 의미를 의미합니다. 이것은 일반적으로 승리하는 이점을 나타내는 엔진 전체 에서 균일 한 수치 임계 값 을 기 대해서는 안된다는 것을 보여줍니다 .

그러나 이보다 더 중요한 것은 위치의 수치 엔진 평가 (피할 수없는 메이트의 명백한 선언과 반대되는) 가 단일 고정 엔진의 경우에도 "원 게임"으로 엄격히 해석 되지 않는다는 점을 이해하는 것이 중요합니다 . 요점은 수치 평가는 광범위한 체스 용어에서 "의미"를 명확하게 나타내지 않으며, 엔진이 각 지점에서 선택하는 움직임에 영향을 주어 일반적으로 바람직한 결과로 엔진을 기계적으로 안내하는 데 사용되는 지각 적 사고를 대체하는 것입니다. 게임에서; 이러한 관점에서, 엔진의 플레이에서 궁극적으로 가장 중요한 것은 절대 값에 대한 것이 아니라 잠재적 인 움직임에 할당 된 평가 의 차이 일뿐입니다.뒤얽힌. 숫자는 엔진 자체에 유용합니다. 엔진 자체에 유용합니다. 한 가지 다른 것을 결정하기 위해서는 구체적인 것이 필요하지만, 우리 인간은 "+ X 평균과 같은 생각과 관련된 규모에 대해 더 많은 의미를 읽기에는 너무 빠르지 않아야합니다. 승리. "

특히, 미들 게임과는 달리 엔드 게임을 향해 점점 더 나아가면서, 특정 임계 값이 승리하기에 충분한 경험치 (위의 미들 게임에서 Houdini의 +2.00과 같은)를 덜 사용할 수 있습니다. 이를위한 주요 이유 중 하나는 엔진이 요새를 인식하기 어렵 기 때문입니다. 여분의 추가 재료로는 여전히 승리하기에 충분하지 않습니다. 예를 들어, Stockfish에게이 위치를 먹이면

NN-NN

몇 분 후, 그것은 약 +7.00의 평가를 제공한다고 생각했으며, 일반적인 위치에서 Stockfish가 말할 때, 당신은 거의 확실하게 승리를 거두었습니다. 그럼에도 불구하고, 이것은 데드 드로우이며, 인간은 블랙이 f6과 h6 사이에서 루크를 섞을 수 있다는 사실을 알게되면 이것을 쉽게 볼 수 있습니다. 따라서 (1) h-pawn은 쓸모가 없으며 (2) 흰색은 왕은 결코 백인 여왕의 공격을 도울 수 없을 것입니다. 결국 , Stockfish는 50 번의 움직임에 맞서거나, 마지막으로 다른 움직임이 부족하여 시도를 반복하고 결국 반복을 피할 수는 없지만 이러한 이벤트는 검색 깊이 줄을 넘어갑니다.

당신이 연결했던 이전 질문의 최종 게임 위치는 이러한 종류의 요새와 유사합니다. 왜냐하면 여분의 연결된 패스 폰 화이트에는 훌륭하고 모든 것이 있지만 궁극적으로는 그 위치에서 이기기에는 충분하지 않습니다. 엔진이 테이블베이스에 포함 된만큼의 정보를 볼 수있는 충분한 시간 동안 계산해야한다면 평가는 0으로 내려가지만 그 동안 평가 알고리즘은 +를 제공하는 것보다 더 나은 방법이 없습니다. 추가 자료 (아직 알지 못하는 의미는 없음).


"이보다 더
ferit

8

이 그림은 상황을 잘 묘사하고 있다고 생각합니다. 그것은 400k 게임에서 만들어졌으며 평범한 재료 만 고려합니다.

승리 확률 / 폰 이점

출처 : Pawn Advantage, Win Percentage 및 ELO


1
좋은 기여! +1
ferit

@Thomas Ahle : 그래프가 흥미 롭습니다. 그러나 원본 기사를 더 이상 사용할 수 없으며 wikispaces 링크가 슬프게 사라졌습니다. W = Win 확률의 정확한 의미를 기억하십니까? 무승부를 무시하고 이기고 졌습니까? 아니면 추첨을 고려한 "예상 점수"입니까?
Diedrsch

내가 링크를 업데이 트했습니다 @Diedrsch
토마스 Ahle
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.