알파 제로는 어떻게“보다 인간적”입니까?


35

AlphaZero에 대한 순진한 질문이 있습니다. 나는 그것이 다른 컴퓨터보다 "인간적인"스타일로 재생되는 것으로 묘사했지만, 그것이 무엇을 하든지, 그것을 수행함으로써 약 100 ELO 포인트를 얻습니다. 카스파로프와 다른 많은 사람들은 컴퓨터와 협력하여 강한 인간이 강한 컴퓨터를 능가 할 것이라고 주장했다 (아마도 약 100 ELO ??). AlphaZero는 "centaur"조합과 어떻게 비교 될까요?

몇 가지 게임 만 살펴본 결과, 대부분의 컴퓨터는 자신의 이동성을 극대화하는 넓은 개방형 게임을하지만 AlphaZero는 상대방의 이동성을 제한하는 데 매우 관심이있는 것 같습니다. 인간 플레이어에서 나는 이것을 인간의 스타일이 아닌 스타일의 문제로 묘사 할 것입니다.


4
가치있는 것에 대해 Kasparov의 주장은 매우 오래되었습니다. 인간과 컴퓨터의 공동 작업 ( "고급 체스"또는 "기원 체스")은 더 이상 자체 컴퓨터보다 성능이 뛰어나지 않습니다. 컴퓨터가 너무 우수합니다. — Fishfish 8은 ~ 3400 IIRC 정도이며 매그너스 칼센의 ~ 2825와 비교됩니다. .
Stephen Touset

8
@StephenTouset 엔진에 대한 Elo 등급에주의하십시오. 내가 가장 일반적으로 본 것은 실제 인간으로 표준화되지 않은 엔진과 엔진의 비교입니다. 관련 Wikipedia 인용문 : "이 등급은 [...] FIDE Elo 등급 또는 인간 플레이어의 다른 체스 연합 등급과 직접적인 관련이 없습니다. 몇 년 전 SSDF가 조직 한 일부 사람 대 머신 게임은 제외했습니다. 오늘 등급부터), 이러한 등급 목록과 플레이어 풀 사이에는 교정이 없습니다. "
mbrig

1
나는 인간이 표준 시간 제어를 할 수는 있지만 그렇지 않다고 생각합니다. 긴 서신 게임은 괜찮을 것입니다.
SmallChess

4
AlphaZero는 Google 제품입니다. 따라서 다른 회사 제품보다 더 많은 선전을들을 수 있습니다. 나는 그들이 저자와 출판사와 더 잘 거래한다고 생각합니다. Waymo와 같은 소금 더미로 가져 가십시오.
coderworks

답변:


33

이 논문의 5 페이지에 답이 있습니다.

... AlphaZero는 심층 신경망을 사용하여 가장 유망한 변형에 대해 훨씬 더 선택적으로 비용을 지불함으로써 더 적은 수의 평가를 보상합니다.

"선택적으로"가 핵심 단어입니다. 그게 무슨 뜻이야? 이 예에서 다음 위치를 사용하겠습니다.

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

이동

이것은 2017 London Chess Classic에서 Caruana가 최근에 얻은 게임입니다. 백인 주교가 공격을 받고 있으며 이사해야한다는 것을 알고 있습니다. 그러나 어디?

가능성 (조각을 잃지 않음) :

  • Bh4
  • Be3
  • Bd2
  • BC1

카루아 나는 무엇을 생각하고 있었습니까?

어느 시점에서지는 것 같은 느낌이 들었지만, 25.Bc1을 보았을 때 갑자기 내 기회에 대해 좀 더 낙관적이었습니다. 나는 나의 지위가 나쁘다는 것을 깨달았지만, 적어도 나는 계획이 있었고 그것이이 지위에 대한 확신에 필요한 전부였습니다. 이 b3, c4를 보았을 때 위치가 양날이며 기회가 있습니다.

이것은 인간의 사고 이며 "인간의 움직임"입니다. Caruana Bh4, Be3 및 Bd2를 "나쁘게"보았 기 때문에 고려 하지 않았습니다 . 그는 초점을 맞추고 있었다 단지단지 BC1의 이동.

인간은 체스를 매우 선택적으로 플레이 합니다. 모든 가능성을 똑같이 조사 할 시간이 없기 때문에 불합리한 행동을 버립니다.

  • h6 폰의 장력을 풀기 때문에 Bh4를 버립니다
  • 우리는 Be3가 3 위에있는 두 개의 흰색 루크를 막기 때문에 버린다
  • 우리는 Bd2가 흰색 여왕을 왕쪽으로 막기 때문에 버립니다.

그것이 AlphaZero가 논문에서 주장하려는 것입니다. 그들은 그들의 알고리즘이 비록 Stockfish보다 느리지 만 검색에서 Stockfish보다 더 나은 움직임 을 선택적으로 선택할 수 있다고 주장합니다 . Stockfish는 빠르지 만 나쁜 움직임에 시간을 낭비합니다. AlphaZero는 느리지 만 더 정확합니다 (Caruana의 작업과 유사).

예를 들어, AlphaZero는 Bc1에 80 %의 자원을 사용하고 다른 모든 감독 이동에 20 %를 소비 할 수 있습니다. 스톡 피쉬는 각 움직임 (Bh4, Be3, Bd2, Bc1)에 대해 25 %를 줄 수 있습니다.


1
따라서 기본적으로 플레이 스타일은 더 인간적 일 필요는 없지만 다음에 할 행동을 찾는 접근 방식입니다. 적어도 종이에 따르면 또한 편집 할 수는 없지만 Caruana 견적에는 "오히려 그의 b3, c4를 보았을 때"가 "b3, c4를 보았을 때"가되어야합니다.
Arthur

@Arthur 종이 (그리고 종이 만)에 따르면, 플레이 스타일은 반드시 더 인간적인 것은 아닙니다. 나는 아니오라고 말하지는 않지만, 논문에서 아무 말도하지 않습니다.
SmallChess

Monte Carlo 알고리즘은 x 익스플로잇 탐색을 제어하는 ​​매개 변수를 가지고 있으므로 알파-베타는 (시간으로 인해) 고려하지 않는 움직임은 알파 제로와는 다릅니다.
Fernando

@ 페르난도 응답 내용을 설명해 주시겠습니까? 나는 요점을보기 위해 고군분투한다. 또한 '시간으로 인해 고려하지 마십시오'라는 혼란에 빠져 있습니다. 알파-베타 검색은 이미 조사 된 다른 지점보다 분명히 나쁜 지점을 무시합니다. 나는 이것이 시간과 어떤 관련이 있는지 알지 못한다.
IA Petr Harasimovic

기본적으로 라인이 +0.32이고 다른 라인이 +0.13이면 AlphaZero는 전자에 시간을 보냅니다.
Jossie Calderon

16

대부분의 강력한 엔진은 피상적 인 평가 기능을 희생하면서 매우 깊게 바라 보는 것을 강조합니다. AlphaZero 논문에서 그들은 Stockfish가 초당 7 천만 개의 위치를 ​​찾는다고 말합니다.

인간 그랜드 마스터는 실제로 엔진에 비해 위치가 거의 보이지 않지만 주어진 위치에서 누가 더 나은지 잘 알고 있습니다.

AlphaZero는 초당 80,000 개의 위치 만 보았으므로 평가 기능에 훨씬 더 많은 시간을 소비합니다.

그것이 그들이 "더 인간적인 것"을 의미한다는 의미입니다.


11

AlphaZero는 이미 엔진 지원을받는 정규 "centaur"-> 대응 GM처럼 연주하는 것 같습니다.

FM으로서 나는 일반 엔진에 비해 AlphaZero를 즐기는 것을 훨씬 더 즐거워 할 것입니다.

한 가지 비교는 Karpov처럼 완벽한 전술을 사용하는 것과 같습니다. (게임 9 AlphaZero는 매우 탈과 같은 15moves에 대한 조각을 재생합니다).

AlphaZero는 단순한 스타일 만이 아니라 Stockfish보다 위치를 더 잘 이해한다는 인상을줍니다.

AlphaZero는 또한 지금까지 모든 체스 엔진이 겪었던 Horizon Effect로 고통받지 않습니다. 때때로 그것은 Stockfish보다 더 아래로 이동하는 위치를 정확하게 평가할 수 있습니다.

예를 들면 다음과 같습니다.

AlphaZero-Stockfish, Alphazero vs Stockfish : AlphaZero-Stockfish, 2017-12-05, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13. cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Qe8 25. Rc7 Rc8 26. Rxc8 + Bxc8 27. Rc6 Bb7 28. Rc2 Kd7 29. Ng5 Be7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 Rg8 33. Qh6 Qf7 34. f6 Kd8 35. Kd2 Kd8 36. Rc1 Kd8 36. Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. ​​axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

알파 제로가 16 강을 중심으로 왕을 맡는다. Kxd2! 중간 게임에서 Black은 그것을 이용할 수 없다고 올바르게 판단합니다.

조각 희생 30을 정확하게 평가할 수 있습니다. Bxg6! 일반 엔진은 많은 움직임으로 인해 엔진이 손실되었음을 알 수 없습니다.

  1. f5도 꽤 좋습니다.

게임 3의 교환 희생과 같은 다른 예가 있습니다.


8

Alpha-Zero의 놀이는 반대의 마차를 뛰어 넘고 Alpha-Zero의 놀이는 전적으로 '외계인'인 것처럼 Alpha-Zero의 놀이는 이전 컴퓨터 체스 프로그램보다 '인간적'이라고 말하는 악 대차를 뛰어 넘기 쉽습니다. 알파 제로의 연극이 특히 인간적 경향에 대한 인간의 경향을 고려할 때 '더 인간적'이라는 것은 분명하지 않습니다.

(인간) 마음의 투쟁으로서의 체스

그러나 체스에서는 이러한 경향이 사실입니까? 매그너스 칼슨 (Magnus Carlsen)은 한때 일반적으로 '전통적인'컴퓨터에 인간의 창의성이 부족하다는 점에 대해 이야기했습니다.

"체스는 인간의 마음 사이의 투쟁에 관한 모든 것입니다. 그것이 흥미 진진한 이유입니다. 컴퓨터 체스는 기계적이고 건조하고 부드럽습니다. 물론 움직임은 매우 강력하지만 스타일은 없습니다. 체스 컴퓨터와 대결하려고한다면 , 당신은 매우 높은 확실성을 잃을뿐만 아니라 그 과정에서 지루할 것입니다.

Magnus Carlsen은 전통적인 체스 컴퓨터에서 인간 스타일의 플레이 증거를 보지 못했습니다. 따라서 Alpha-Zero의 최근 성과로 인해 이러한 관점이 풀리고 우리를 생각 나게하는 무언가로 우리를 옮겼는지 살펴 보겠습니다.

만약 '인간과 같은'이라는 말은 '인간적 감각에 호소 할 가능성이 높은 행동을 나타내는 것'을 의미한다면 알파 제로의 스타일은 더 인간적인 것처럼 보입니까? 우리는이 주관적인 근시 적 인간이 비인간적 인 것들에 대해 투영하는 것을 어떻게 실제로 테스트합니까? 질문하자-알고리즘이 플레이 스타일에서 '선택적으로 더 잘 선택'되거나 '보다 인간적으로 창의적인 선택'을 보이는가?

이 알고리즘의 제작자 건어는 달리 알파 - 베타 검색 알고리즘을 사용하는 것을 나타냅니다, 알파 제로는 가중 매개 변수 ~ 이전 결과에서 구축 θ 입력으로 받아들이는 몬테카를로 트리 검색 (MCTS) 알고리즘 사용 페이지 3. 마스터 체스와 일반 강화 학습 알고리즘을 통한 셀프 플레이 쇼기 ).

따라서 알고리즘은 선택을 전혀 나타내지 않습니다. 실제로 가능한 검색 경로가 이전 결과에 의해 점점 더 편견을 갖는 임의의 확률 론적 확률 론적 Monty-carlo 검색에 관여합니다. Alpha-zero는 이런 방식으로 플레이 스타일을 최적화하기로 선택 했습니까, 아니면 프로그래머의 선택입니까?

알파 제로 (Alpha-zero)는 항상 모든 가능한 움직임을 고려할 수 있는가? 또는 어떤 움직임은 인간이 의인화 학적으로 해석 할 수있는 경험을 모방하는 방식으로 알고리즘 적으로 편견이 있는가?

처음에는 모든 움직임을 사용할 수 있었으므로 '스타일'은 완전히 임의적이었습니다. 그러나 검색이 이전의 성공 또는 실패로 인해 점점 더 최적으로 제한됨에 따라 해당 스타일은 실제로 프로그래머가 방해하는 모드로 바뀌고 있습니다. 그러나 이것이 '보다 인간적인가?' 이 방법을 창의성 으로 인해 최적의 움직임을 선택하지 않는 Magnus Carlesen과 비교해보십시오 .

Magnus Carlsen :“고유 한 무언가를 만들어서 고맙습니다”

(외국인) 마음의 투쟁으로서의 체스

인간은 자신의 플레이 스타일을 주도하는 기준을 선택할 수 있습니다 (예를 들어, 종종 내 스타일에서 충동과 오류를 선택했습니다). 두 체스의 많은 참조 알파 제로의 플레이와는 확실히로 외국인 . MIT 컴퓨터 과학 및 인공 지능 연구소 (CSAIL)의 대학원생 인 Nick Hynes는 다음을 관찰합니다.

“우리가보고있는 것은 인간의 편견과 전제가없는 모델입니다. 그것은 그것이 최적이라고 결정한 것을 배울 수 있으며, 실제로 우리 자신의 개념보다 더 미묘한 차이가있을 수 있습니다. 마치 시간 여행과 같은 일을 할 수있는 자체 수학을 발명 한 외계 문명과 같습니다.”

마찬가지로 Peter Heine Nielsen GM 은 Chess.com에 다음과 같이 말했습니다 .

"논문을 읽었지만 특히 내가 생각했던 게임을 본 후에, 나는 항상 우수한 종이 지구에 상륙하고 그들이 어떻게 체스를 하는지를 보여 주 었는지 궁금했습니다. 나는 지금 알고 있습니다."

알파 제로의 등장하는 플레이 스타일은 대부분 '인간적인 플레이'가 아닌 '외계인 플레이'로 반응하는 것으로 보인다.

따라서 위의 답변에 '예'라고 동의하지 않는 이유가 있습니다.


3
귀하의 답변은 상당히 오도되고 부정확합니다. MCTS를 사용하는 것이 결정적인 차이가 아니기 때문에 Stockfish를이기는 것은 아닙니다. 그들은 알파-베타 검색도 사용할 수 있었으며 MCTS가 더 잘 작동한다고 느꼈습니다. AlphaZero 알고리즘의 주요 요소는 매우 깊은 컨볼 루션 신경망, 강화 학습 (즉, 네트워크가 자체 재생에 의해 조정 됨) 및 트리 검색 (MCTS이지만 발생하지는 않음)입니다. "그 스타일이 실제로 프로그래머가 족쇄 한 모드로 바뀌고있다"고 말하는 손수는 없다.
IA Petr Harasimovic

"체스는 인간의 마음 사이의 투쟁에 관한 모든 것입니다. 그것이 흥미 진진한 이유입니다. 컴퓨터 체스는 기계적이고 건조하며 부드럽습니다. 물론 움직임은 매우 강력하지만 스타일은 없습니다." 누구든지 사람이나 컴퓨터가 될 수있는 익명의 상대를 플레이하는 많은 GM들과 함께 튜링 테스트 스타일 실험을 잘 수행 한 적이 있습니까?

내 요점이 MCTS가 (알파 제로와 스탁 피쉬 간의) 중요한 차이라고 생각한다면 내 요점이 빠져 있습니다. 내 요점은 알고리즘이 아닌 인간이 알파 제로의 플레이 스타일을 결정하고 알파 제로의 결정을 결정한다는 것입니다. 저의 요점은 바로 이러한 인간 선택이 GM과 아마추어를 결정적으로 인간이 아닌 것처럼 치는 플레이 스타일을 부여하는 것 같습니다.
user34445


1
@ user34445 사실, 나는 단락이 전혀 의미가 없다고 생각한다. 나는 단지 그것을 합리화하려고했다. 인간은 AlphaZero의 플레이 스타일을 결정하지 않고 학습 스타일을 결정했습니다. 그들은 확실히 체스를하는 방법에 대한 그들의 견해를 강요하지 않았습니다.
IA Petr Harasimovic

5

살아있는 것은 매우 흥미로운 시간입니다.

1970 년대부터 시작된 체스 컴퓨터는 알파-베타 가지 치기를 사용하는 미니맥-트리 기반 검색 알고리즘이었습니다. 이 프로그램들은 컴퓨터 속도와 병렬 처리가 향상되고 가지를 제거하고 리프 노드를 선택하는 데 사용되는 휴리스틱 평가 기능이 향상되어 더욱 강력 해졌습니다. 그러나 사람들은 오랫동안 유물론적이고 지루한 컴퓨터 게임이 어떤지를 알아 차 렸으며, 많은 사람들 (자신 포함)은 "인간"직관을 소프트웨어로 인코딩하는 것이 불가능하다고 생각했습니다.

그러나이 게임들을 보셨습니까?

AlphaZero는 장기적인 위치 우위를위한 재료 희생의 몇 가지 예를 포함하여 매우 아름다운 놀이를 선보입니다. 이것은 인간 마스터의 가장 아름다운 게임을 연상 시키지만 기술적으로도 독보적입니다. 이것은 내가 컴퓨터에서 생성하고 깊은 아름다움을 가진 인생에서 본 첫 번째 예 입니다.


명기 주장 :

개리가이 말을 여러 번 들었다고 들었지만 사실이 아닙니다. 또는 적어도 AlphaZero가 장면에서 더 이상 사실이 아닙니다.

이것을 상상해보십시오. 10,000 개의 관련 연속체가 있으며, 그 중 5,000 개는 순전히 전술적이지만 (주로 서로 관련이 없음) 5,000 개는 대부분 위치 적입니다 (주로 관련이 없음). 인간은 어떻게 실수를하지 않고 이러한 모든 변형을 다룰 수 있습니까? AlphaZero가 이제 이러한 창의적인 움직임을 볼 수 있다면 인간이 어떤 기여를 할 수 있을까요?


마지막 국경 :

무차별 계산이 여전히 깊은 신경망을 이길 수있는 곳이 남아 있습니다. 테이블베이스를 이길 직관력은 없습니다. 그러나 검색 트리가 올바른 이동을 계산하기에 충분히 깊이 갈 수 없기 때문에 테이블베이스가 필요한 결말은 매우 드 rare니다. 그리고 당신은 AlphaZero에 테이블베이스를 꽂을 수 있지만, 그것은 "자발적으로 가르치는"엔진의 순도를 파괴 할 것입니다.


3

인간은 전통적인 컴퓨터 체스 프로그램 (프리츠, 스탁 피시 등)과 같이 심도있는 검색 능력이 없기 때문에 '전략적 원칙'또는 경험적 규칙 (중심 통제, 개발, 왕의 안전)과 다양한 개념에 적용 할 수있는 개념이나 트릭을 만듭니다. 희생, 도둑 연결, 주교 쌍, 특정 결말과 같은 다양한 방법으로 상황, 예를 들어 루크와 폰으로 왕을 모방하는 방법.

알파 제로는 많은 개념 (인식과 개념)을 독자적으로 재창조했으며 수많은 새로운 개념을 배웠다고 생각합니다. 그 지식은 인간의 평가 기능을 기반으로 할 필요가 없기 때문에 항상 상대방을 천재.

물론, 그러한 원칙 자체는 어떤 상황에서는 상충되므로, 다양한 오프닝 연극과 함정을주의 깊게 연구해야합니다. 예를 들어 여왕을 너무 빨리 개발하지 마십시오.

다른 한편으로, 인간은 또한 한 조각을 잃으면 (교환없이) 힘을 약화시켜 보상없이 조각을 잃지 않도록 매우주의합니다.

나는 Alphazero의 연극이 작은 재료를 잃고 책과 작품의 가치를 여는 것에 대한 과도한 의존에 대한 노예의 두려움으로부터 컴퓨터 체스 (및 인간 체스)를 해방 시켰다고 생각합니다.

알파 제로 게임은 상대방이 조잡한 경우 센터 제어, 개발, 우주, 주도권과 같은 '전략 원칙'과 같은 것들이 훨씬 더 중요하다는 것을 보여줍니다. 다시 말해서, '희생'은 실제로는 희생이 아니라 주도권, 직위, 지시 된 이동의 이익을 위해 한 부분을 거래하는 것입니다.

Alphago (0이 아님)는 사람의 평가에 의존했지만 alphazero는 전체 평가 체인을 단일 검색 프로세스로 '검색 또는 시뮬레이션'으로 설정하고 완전히 새로운 방식의 플레이를 제공합니다.

당신이 그것에 대해 생각한다면, Morphy, Fischer, Kasparov와 같은 과거의 위대한 주인은 일반적으로 이런 종류의 반 직관적 인 놀이에 대해 박수를 받았습니다. 드러나다. 알파 제로의 게임에는 '와우'요소가 있다고 생각합니다.

왜 신경망인가. 상징적 표현과 이산 검색을 사용하는 컴퓨터 프로그램은 '한 가지'사고 방식 만 사용할 수 있지만 신경망은 상황이 서로 다른 충돌 평가를 통해 병렬로 처리하고 이후 계층에서 더 가치있는 관점으로 넘어갈 수 있습니다.


2

인간이 접근하는 움직임은 인간의 접근 방식과 거의 일치하는 것처럼 보입니다. 장기적인 이점, 위치 희생, 조각 활동을위한 게임. 인간 체스 지식과 명백한 수렴이 있으며 수 세기에 걸쳐 개선 된 전략적 원칙을 받아 들였다 (예 : 많은 동일한 개방을 "발견"). AlphaZero에 인간이 구성한 체스 지식이 뿌려지지 않았다는 사실을 감안할 때 이것은 주목할 만합니다.

그러나 유사점은 여기서 끝납니다. AlphaZero는 다음 단계로 나아가고, 더 나은 방법으로, 인간이 상상하지 못한 방식으로이를 수행합니다. AlphaZero 용지를 인용 "초인적 인"기능을 가지고 : ( "AlphaZero는 [...] 놀이의 초인적 인 수준 달성" https://arxiv.org/pdf/1712.01815.pdf )를. 또한 인간을 제한하는 집중 문제, 두려움, 피로, 감정, 직관 등 인간 고유의 약점을 가지고 있지 않습니다. 실리콘 브레인은 필요할 때 인간의 능력을 넘어 전술적 조합을 가능하게합니다.


2
그리고 역설이 있습니다. 비축 어는 인간의 경험으로부터 이익을 얻는다. 알파 제로는 그렇지 않습니다. 그러나 알파 제로는 더 인간적인 것 같습니다. 아마도, 우리는 Stackfish 세대와 함께 우리 생각을 증류시키는 데 아주 좋은 일을하지 않았 음을 의미합니다.
Philip Roe

1

이 질문에 답한 모든 사람들에게 종종 미묘하고 통찰력있게 감사드립니다. 응답의 주요 차이점은 인간이라는 단어의 해석에 있습니다.

AlphaZero는 감독과 오해의 관점에서 인간 체스를 재생하지 않지만, "생각"과정은 가장 강한 선수들이 생각하는 방식과 강화 된 형태로 보인다. 당신은 당신이 플레이하고자하는 "후보 이동"목록을 매우 빠르게 그리고 가장 강한 플레이어를 위해이 목록은 놀랍도록 정확하며, 1 분 안에 알아볼 수있는 현명한 게임과 같은 것을 연주합니다. 나머지 시간은 묻는 데 소비됩니다. 그 목록의 어떤 움직임이 실제로 효과가 있습니까? Petrosian은 자신이 처음 뛰었던 움직임이 처음 생각했을 때 가장 많이 느꼈다고 말했다. 우리가 가장 원했던 움직임이 전술적으로 플레이 가능한 것으로 판명 될 때 우리는 그것이 얼마나 만족 스러운지 압니다. AlphaBeta 검색보다 AlphaZero 알고리즘을 훨씬 쉽게 관련시킬 수 있습니다.

가장 흥미로운 것은 머신이 자기 플레이를 통해 유망한 후보자를 어떻게 인식 할 수 있었는지입니다. 바로 이것이 진정한 혁명의 잠재력입니다. 이것이 목표가 명확하게 정의 될 수있는 체스 및 이동과 같은 도메인에서만 가능한지 궁금합니다. 그러나 AlphaZero가 의도 한 플레이를 보여준 것 같지만 Stockfish는 무슨 일이 일어나고 있는지 전혀 모릅니다.


0

신경망을 이해하는 방식에서 A0의 진정한 장점은 보드 위치에 대한 탁월한 평가입니다. 이 평가에는 단기 전술적 지식 (어떤 점에서 시험 된 위치 수의 승수 역할을 함)과 전략적 가치에 대한 우수한 평가가 모두 포함됩니다.


1
체스 SE에 오신 것을 환영합니다! 신경망이 그렇게 작동한다고 생각하는 이유에 대한 참조를 제공해 주시겠습니까?
Pablo S. Ocal

0

제가 전체 토론에서 놓친 것 중 하나는 A0이 체스, 쇼기, 고개를 모두 아주 잘 훈련 할 수 있다는 것입니다. 이것은 훨씬 더 인간적입니다. 또한, 그것은 내가 이해하는 것처럼 최고 선수들에게 깊이 새로운 아이디어를 공개했습니다. 다른 엔진은 작업별로 매우 다르므로 A0은 그렇지 않습니다. 나는 그것이 chess960을하는 것을보고 싶다.


1
이것이 어떻게 질문에 대답하는지 모르겠습니다.
SmallChess

-2

알파에 대해서는 '인간적인'것이 없다고 생각합니다. 방금 훨씬 강력한 하드웨어를 사용하고 고품질 체스를 재생했습니다. 좋은 오프닝 움직임은 (예를 들어 Bg2가있는 fianchetto king쪽으로) 움직이는 오프닝 북으로 인해 완전히 이루어집니다. 나에게 감동을 주었고 '체스의 비밀'에서 공식화 한 개념 : http://davidsmerdon.com/?p=1970 은 알파가 최고의 엔진 중에서 처음으로 사용하는 더 긴 체인입니다 (예 : d4). -e5-f6 체인은 Bg6 희생 게임과 중앙 후방 제작자에서 두 엔진 사이의 프랑스 국방 게임에서 볼 수 있듯이 전체 조각을 능가했습니다. 두 개념 모두 깊이있는 검색을 포함하며 아마도 여기서 Alpha는 엄청난 하드웨어 덕분에 도움을 받았습니다. 그렇지 않으면, 나는 그 놀이에 대해 인간이 없다고 본다. 많은 게임들이


5
당신의이 두 진술은 틀렸다 : 1) "그것은 훨씬 더 강한 하드웨어를 사용했다"-네, 그것은 Stockfish보다 훨씬 더 강한 하드웨어를 사용했지만 이것이 차이를 만드는 것은 아닙니다. 강력한 하드웨어가 필요한 매우 다른 소프트웨어입니다. 2) "좋은 오프닝 움직임은 시뮬레이션 된 오프닝 북 때문입니다." -오프닝 북을 사용하지 않습니다.
IA Petr Harasimovic

차이를 만드는 것은 바로 이것입니다. 기하 급수적으로 더 큰 알파 하드웨어. 모든 체스 테스터는 소프트웨어에 따라 속도가 두 배로 높아지면 체스 강도가 약 70 엘로 정도 증가한다는 것을 알고 있습니다. 32 코어와 4TPU (1000-2000 코어)의 차이는 6 배 정도입니다. 그것은 420 명을 만들 것입니다. 따라서 실제로 하드웨어에서 100 엘로를 더 강하게 실행하는 반면 동일한 조건에서 알파는 약 300 엘로 더 약합니다.
Lyudmil Tsvetkov

그것은 물론 그들이 주장하는 것에 관계없이 첫 책을 사용합니다. 알파는 GM 최고의 게임에서 훈련을 받았습니다. 알파의 오프닝 셀렉션을 보면 현대 이론에서 권장하는 오프닝과 정확하게 이길 확률이 가장 높은 오프닝을 볼 수 있습니다. 당신은 Bg2를 그렇게 좋아하지 않습니다.
Lyudmil Tsvetkov

3
@Lyudmil, Google은 Alpha Zero에서 놀라운 것을 달성했습니다. 그것은 게임의 규칙만을 알고 스스로 대항함으로써 이러한 움직임을 스스로 가르쳤다! Alpha Zero의 부정 행위 팀을 비난하면 자신의 업적이나 임무를 전혀 이해하지 못했음을 알 수 있습니다. AI의 한계를 뛰어 넘고 오후의 일에서 기존 체스 엔진과 인간의 재능을 능가하는 하나의 작은 제스처로!
세일

1
@LyudmilTsvetkov 당신은 완전히 틀 렸습니다. 알파 제로가 (이 그것의 포인트입니다) 훈련 wtihout 어떤 인간 게임. 그것은없이 그 자체로 연주의 4 시간의 플레이의 모든 측면을 발명 한 후 규칙을 이야기하고있어 어떤 새로운 외부 데이터입니다.
Maverick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.