새로운 AI가 승리합니다. 비슷한 인공 지능이 체스에서 이길 수 있습니까? 순수한자가 훈련을 달성 할 수 있습니까?


20

이 사이트에서 가장 인기있는 질문 중 하나는 순수하게 자체 훈련 된 체스 AI 의 가능성에 관한 것 입니다.

오늘날 ChessBase는 FIDE Candidates 토너먼트의 범위에서 산만 해져 새로운 AI가 처음으로 체스 스타일 AI에 오랫동안 저항 해 온 다소 다른 이동 게임의 선두 주자를 쳤다고보고했습니다. 보고서를 처음 읽었을 때 새로운 이동 AI는 체스 AI와는 다르지만 GGP (General-Game-Playing) AI에 가깝 습니다. 그러나 ChessBase의 기사는 GGP라는 용어를 사용하지는 않지만 단순한 AI로 간단한 AI 게임에서 승리 할 수 있다고 말합니다 .

그러한 인공 지능이 사소한 조정으로도 체스에서 이길 수없는 이유가 있습니까? 그렇다면, 그러한 AI 쇼는 이전에 논의했던 이전 질문에 대한 몇 가지 훌륭한 답변을 아직까지는 불가능했던 순수한 자체 훈련을 달성 할 것을 약속합니까? 그 이유는 무엇?

내 질문에 대한 완전하고 완전한 정답을 아직 얻지 못했다고 생각하므로 관련 전문 지식을 바탕으로 한 부분 답변조차도 감사 할 것입니다.

추가 참조는 이 관련 질문 및 답변을 참조하십시오 .

최신 정보

위의 질문이 5 일 전에 처음 게시되었을 때와 아래의 훌륭한 답변 중 일부가 주어 졌을 때 AI의 승리에 관한 첫 번째 뉴스가 방금 나타났습니다. 그 이후로 추가 정보와 해설이 등장했습니다.

그 이후로 특히 흥미로운 것은 Jonathan Schaeffer 가 다음과 같이 매우 읽기 쉬운 5면 원탁 토론 이었습니다.

인간 게임을 통해 배우면 프로그램 학습 속도가 빨라집니다. AlphaGo는 인간 게임을 사용하지 않고 스스로 강력한 선수가되는 법을 배울 수있었습니다. 학습 과정은 더 오래 걸릴 것입니다.

원탁 회의 주최자에 따르면 Schaeffer는 "알버타 대학교의 컴퓨터 과학 교수이자 체커를 해결 한 사람"이라고한다. 아마 그는 의견을 제시 할 자격이있을 것입니다.

자세한 내용 은 공개 토론의 또 다른 기록으로, 많은 참가자들이 평소보다 더 잘 알고있는 것으로 보입니다. 토론은 경기 중에 진행되었습니다.

1 년 반 후 추가 업데이트 : commenter @MarkS. 씁니다 :

이것은 체스가 아닌 바둑에 관한 것이기 때문에 논평 일뿐입니다. 그러나 알파 고 제로는 누가 이겼고 (최종 점수가 아님) 말을함으로써 "순수한 자기 훈련"을 달성했으며이 세돌을이기는 AI보다 강력하고 훨씬 효율적입니다. . 자세한 내용은 deepmind.com/blog/alphago-zero-learning-scratch를 참조하십시오 .


더 많은 기술 포럼에서 이것을 요청하는 것이 좋습니다. AI는 복잡한 주제이므로 이해하기 위해서는 상당한 전문 지식이 있어야합니다. 여기의 답변을 보면 합리적인 답변을 얻을 수 있을지 확실하지 않습니다.
살바도르 달리

5
주어진 답변은 대단히 감사합니다. 나는 둘 이상의 투표를했습니다. 내가 아직 아무 것도 받아들이지 않았다면, 이것은 대답에 대한 비판이 아니라, 질문이 너무 어려우며, 주제가 너무 새롭기 때문에 받아 들일만한 대답을 아직 얻지 못할 수도 있습니다. 이 질문을 잠시 열어두고 잠시 후 오늘 사용할 수없는 답변이 나중에 제공되는지 확인하십시오. 감사.
thb

1
이것은 체스가 아닌 바둑에 관한 것이기 때문에 논평 일뿐입니다. 그러나 알파 고 제로는 누가 이겼고 (최종 점수가 아님) 말을함으로써 "순수한 자기 훈련"을 달성했으며이 세돌을이기는 AI보다 강력하고 훨씬 효율적입니다. . 자세한 내용은 deepmind.com/blog/alphago-zero-learning-scratch
Mark S.

1
@thb AlphaZero가 AI라고 생각합니다.
Harry Weasley

1
2017 년 12 월 현재 AlphaZero는 arxiv.org/pdf/1712.01815.pdf 게임 규칙에서만 체스 스타일을 가르치고 설득력있게 StockFish 를 기각했습니다.
돛단배

답변:


14

글쎄요! DeepMind는 Stockfish를 이길 수있는 신경망 컴퓨터를 프로그래밍하고 훈련 시켰다는 논문발표했습니다 .

동작 당 1 분의 사고 시간으로 AlphaZero 컴퓨터는 Stockfish를 +25, = 25, -0, 흰색, + 3, = 47,0-을 검정으로 이겼습니다.

그들은 체스, 쇼기, 고를 뛰고 실리콘 라이벌을 설득하기 위해 3 대의 개별 컴퓨터를 "훈련"했다.

다음은이 논문이 교육 및 평가를 설명하는 방법입니다.

셀프 플레이 게임은이 신경망에 대한 최신 매개 변수를 사용하여 생성되며 평가 단계와 최고의 플레이어 선택을 생략합니다.

AlphaGo Zero는 베이지안 최적화에 의해 검색의 하이퍼 파라미터를 조정했습니다. AlphaZero에서는 게임 별 조정없이 모든 게임에 동일한 하이퍼 파라미터를 재사용합니다. 유일한 예외는 탐사를 위해 사전 정책에 추가 된 소음입니다. 이는 해당 게임 유형에 대한 일반적인 법적 움직임 수에 비례하여 조정됩니다.

AlphaGo Zero와 마찬가지로 보드 상태는 각 게임의 기본 규칙에 따라 공간 평면으로 인코딩됩니다. 액션은 공간 평면이나 평면 벡터로 인코딩되며, 각 게임의 기본 규칙에만 기반합니다 (메소드 참조).

AlphaZero 알고리즘을 체스, 장기 및 Go에 적용했습니다. 달리 명시되지 않는 한, 동일한 알고리즘 설정, 네트워크 아키텍처 및 하이퍼 파라미터가 세 게임 모두에 사용되었습니다. 각 게임마다 별도의 AlphaZero 인스턴스를 교육했습니다. 자가 재생 게임을 생성하기 위해 5,000 개의 1 세대 TPU와 신경망을 훈련시키기 위해 64 개의 2 세대 TPU를 사용하여 무작위로 초기화 된 매개 변수에서 시작하여 70 만 단계 (4,096의 미니 배치)에 대한 교육이 진행되었습니다. 교육 절차에 대한 자세한 내용은 방법에 제공됩니다.

그림 1은 Elo 척도 (10)에서 훈련 단계의 기능으로자가 학습 강화 학습 중 AlphaZero의 성능을 보여줍니다. 체스에서 AlphaZero는 단 4 시간 (300k 단계) 후에 Stockfish보다 성능이 뛰어났습니다. 장기에서는 AlphaZero가 2 시간 미만 (110k 단계) 후에 Elmo보다 성능이 뛰어났습니다. Go에서 AlphaZero는 8 시간 (165k 단계) 후에 AlphaGo Lee보다 성능이 뛰어났습니다 (29).

우리는 Stockfish, Elmo 및 이전 버전의 AlphaGo Zero (3 일 동안 훈련 됨)에 대해 완전히 훈련 된 AlphaZero 인스턴스를 체스, shogi 및 Go에서 각각 평가했으며, 이동시 1 분의 토너먼트 시간 컨트롤에서 100 경기를 치렀습니다. AlphaZero와 이전 AlphaGo Zero는 4 개의 TPU가있는 단일 시스템을 사용했습니다. Stockfish와 Elmo는 64 개의 스레드와 1GB의 해시 크기를 사용하여 가장 강력한 기술 수준에서 플레이했습니다. AlphaZero는 모든 상대를 확실하게 물리 쳤으며, Stockfish는 0 번, Elmo는 8 번의 게임을 잃었으며 (몇 가지 예제 게임은 보조 자료 참조), 이전 버전의 AlphaGo Zero를 물리 쳤습니다 (표 1 참조).

컴퓨터 는 Google에서 기계 학습 작업을 위해 개발 한 "TPU"( Tensor Processing Unit ) 라는 새로운 형태의 칩을 사용했습니다 .

그들은 그들의 몬테카를로 트리 검색 알고리즘이 전통적인 알파-베타 검색 알고리즘보다 더 좋고 "인간적"이라고 주장합니다.

또한 Stockfish와 Elmo에서 사용하는 최신 알파 베타 검색 엔진과 비교하여 AlphaZero의 MCTS 검색의 상대적인 성능을 분석했습니다. AlphaZero는 체스에서 초당 8 만 개의 위치와 장기에서 4 만 개의 위치를 ​​검색하는데, 이는 Stockfish의 경우 7 천만, Elmo의 경우 3 천 5 백만입니다. AlphaZero는 심층 신경망을 사용하여 가장 유망한 변형 (선택적으로 Shannon에 의해 제안 된 "인간과 유사한"검색 방식)에 훨씬 더 집중적으로 초점을 두어 더 적은 수의 평가를 보상합니다. 그림 2는 40ms의 사고 시간을 가진 Stockfish 또는 Elmo와 비교하여 Elo 규모로 측정 된 사고 시간에 대한 각 플레이어의 확장 성을 보여줍니다. AlphaZero의 MCTS는 Stockfish 또는 Elmo보다 사고 시간에 따라 더 효과적으로 확장되었습니다.

다음은 몇 가지 게임입니다.

스톡 피쉬-알파 제로, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. Nbd2 O-O 8. Qe1 f6 9. Nc4 Rf7 10. a4 Bf8 11. Kh1 Nc5 12. a5 Ne6 13. Ncxe5 fxe5 14. Nxe5 Rf6 15. Ng4 Rf7 16. Ne5 Re7 17. a6 c5 18. f4 Qe8 19. axb7 Bxb7 20. Qa5 Nd4 21. Qc3 Re6 22. Be3 Rb6 23. Nc4 Rb4 24. b3 a5 25. Rxa5 Rxa5 26 Nxa5 Ba6 27 Bxd4 Rxd4 28 NC4 RD8 29 G3 H6 30 Qa5 BC8 31 Qxc7 BH3 32 사포닌 Rg1 RD7 33 Qe5 Qxe5 34 Nxe5 RA7 35 NC4의 G5 36 RC1 Bg7 37. Ne5 Ra8 38. Nf3 Bb2 39. Rb1 Bc3 40. Ng1 Bd7 41. Ne2 Bd2 42. Rd1 Be3 43. Kg2 Bg4 44. Re1 Bd2 45. Rf1 Ra2 46. ​​h3 Bxe2 47. Rf2 Bxf4 48. Rxe2 Be5 49. Rf2 Kg7 50. g4 Bd4 51. Re2 Kf6 52. e5 + Bxe5 53. Kf3 Ra1 54. Rf2 Re1 55. Kg2 + Bf4 56. c3 Rc1 57. d4 Rxc3 58. dxc5 Rxc5 59. b4 Rc3 60. h4 Ke5 61 hxg5 hxg5 62. Re2 + Kf6 63. Kf2 Be5 64. Ra2 Rc4 65. Ra6 + Ke7 66. Ra5 Ke6 67. Ra6 + Bd6 0-1

경기

스톡 피쉬-알파 제로, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. c3 O-O 8. d4 Bd6 9. Bg5 Qe8 10. Re1 f6 11. Bh4 Qf7 12. Nbd2 a5 13. Bg3 Re8 14. Qc2 Nf8 15. c4 c5 16. d5 b6 17. Nh4 g6 18. Nhf3 Bd7 19. Rad1 Re7 20. h3 Qg7 21. Qc3 Rae8 22. a3 h6 23. Bh4 Rf7 24. Bg3 Rfe7 25. Bh4 Rf7 26. Bg3 a4 27. Kh1 Rfe7 28. Bh4 Rf7 29. Bg3 Rfe7 30. Bh4 g5 31. Bg3 Ng6 32. Nf1 Rf7 33. Ne3 Ne7 34. Qd3 h5 35. h4 Nc8 36. Re2 g4 37. Nd2 Qh7 38. Kg1 Bf8 39. Nb1 Nd6 40. Nc3 Bh6 41. Rf1 Ra8 42. Kh2 Kf8 43. Kg1 Qg6 44. f4 gxf3 45. Rxf3 Bxe3 + 46. ​​Rfxe3 Ke7 47. Be1 Qh7 48. Rg3 RG7 49 Rxg7 + Qxg7 50 RE3 RG8 51 사이드 Rg3 Qh8 52 NB1 Rxg3 53 Bxg3 Qh6 54 ND2 Bg4 55 Kh2 KD7 56 B3 axb3 57 Nxb3 Qg6 58 ND2 Bd1을 59 NF3 Ba4 60 ND2 Ke7 61 Bf2 Qg4 62. Qf3 Bd1 63. Qxg4 Bxg4 64. a4 Nb7 65. Nb1 Na5 66. Be3 Nxc4 67. Bc1 Bd7 68. Nc3 c6 69. Kg1 cxd5 70. exd5 Bf5 71. Kf2 Nd6 72. Be3 Ne4 + 73. Nxe4 Bxe4 74. a5 bxa5 75. Bxc5 + Kd7 76. d6 Bf5 77. Ba3 Kc6 78. Ke1 Kd5 79. Kd2 Ke4 80. Bb2 Kf4 81. Bc1 Kg3 82. Ke2 a4 83. Kf1 Kxh4 84. Kf2 Kg4 85. Ba3 Bd7 86. Bc1 Kf5 87. Ke3 Ke6 0-1

화이트 : 알파 제로 블랙 : 스탁 피쉬

AlphaZero-스톡 피쉬, 1-0
1. Nf3 Nf6 2. c4 b6 3. d4 e6 4. g3 Ba6 5. Qc2 c5 6. d5 exd5 7. cxd5 Bb7 8. Bg2 Nxd5 9. OO Nc6 10. Rd1 Be7 11. Qf5 Nf6 12. e4 g6 13. Qf4 O-O 14. e5 Nh5 15. Qg4 Re8 16. Nc3 Qb8 17. Nd5 Bf8 18. Bf4 Qc8 19. h3 Ne7 20. Ne3 Bc6 21. Rd6 Ng7 22. Rf6 Qb7 23. Bh6 Nd5 24. Nxd5 Bxd5 25. (Rd1)이 Ne6 26 Bxf8 Rxf8 27 Qh4 BC6 28 Qh6 Rae8 29 RD6 Bxf3 30 Bxf3 QA6 31 H4 Qa5 32은 (Rd1)이 탄소수 33 RD5 QE1 + 34 KG2가 C3 bxc3 35 Qxc3 36 H5 RE7 37. Bd1 Qe1 38. Bb3 Rd8 39. Rf3 Qe4 40. Qd2 Qg4 41. Bd1 Qe4 42. h6 Nc7 43. Rd6 Ne6 44. Bb3 Qxe5 45. Rd5 Qh8 46. ​​Qb4 Nc5 47. Rxc5 bxc5 48. Qh4 Rde8 49. Rf6 Rf8 50. Qf4 a5 51. g4 d5 52. Bxd5 Rd7 53. Bc4 a4 54. g5 a3 55. Qf3 Rc7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 Rf8 59. Qd6 Rfc8 60. a4 1- 0

그냥 신문을 읽으십시오. 정말 놀라운. 물론이 여전히 AlphaZero과 함께 기존의 기술을 더욱 강력한 무언가를 구축하지만, 수없는 것을 의미하지 않는다 ...
BlindKungFuMaster

10

좋아, 내가 틀렸다는 것을 인정해야한다. 나는 그것이 일반적인 전문가의 견해가 아니라 전문가의 의견에 의한 것이라고 주장 하지만, 논문 을 인용하기 위해 : "그러나 전통적인 MCTS를 사용하는 체스 프로그램은 알파-베타 검색 프로그램보다 훨씬 약했다. (4, 24); 알파 -신경망 기반의 베타 프로그램은 이전에는 더 빠르고 손으로 만들어진 평가 기능과 경쟁 할 수 없었습니다. "

분명히, 체스는 전략적으로 깊기 때문에 당신을 계산할 수있는 누군가를 전략화 할 수 있습니다. 체스 엔진의 개발이 반대 방향으로 진행되어 왔기 때문에 큰 놀라움입니다. (알파 제로 (AlphaZero)가 Stockfish보다 실제로 더 강력한 지에 대해서는 약간의 경고가 있습니다. 해시 테이블에 대해 1GB로만 재생 된 Stockfish와 64 개의 코어가 실제로 4 개의 TPU와 일치하지 않을 수 있습니다)

AlphaZero는 기존 엔진과는 매우 다른 강점을 가지고 있기 때문에 정말 흥미로운 일입니다.

또한 AlphaGo의 중요성에 대한 나의 믿음이 많은 기술 혁신으로 업데이트됨을 의미합니다. 기본적으로 하나의 설정으로 쇼기, 이동 및 체스를 분쇄하는 것은 AlphaZero가 수퍼 휴먼 레벨에서 재생할 수있는 수십 가지 다른 게임은 말할 것도없이 완전히 놀랍습니다.

알파-베타 검색과 비교했을 때 MCTS가 실제로 체스에도 괜찮은 이유에 대한 좋은 설명이 있습니다. "AlphaZero는 선형이 아닌 심층 신경망을 기반으로 비선형 함수 근사를 사용하여 위치를 평가합니다. 일반적인 체스 프로그램에서 사용되는 함수 근사법 이것은 훨씬 더 강력한 표현을 제공하지만 스퓨리어스 근사 오류를 야기 할 수 있습니다 MCTS는 이러한 근사 오류에 대한 평균값이므로 큰 하위 트리를 평가할 때 취소되는 경향이 있습니다. " 가장 큰 근사값을 서브 트리 의 루트전파 하는 명시적인 최소-최대 값을 계산합니다 ." (나에 의해 강조)

현실로 대체되는 결론에도 불구하고 여전히 유효한 점을 포함하는 나의 오래된 대답이 있습니다.

우선 Alphago는 일반적인 게임 플레이 시스템이 아닙니다. 이 프로그램은 순전히 연주 할 수 있도록 설계된 프로그램입니다. 그러나 이미지 인식에 사용되어 의료 진단에 즉시 적용되는 컨볼 루션 신경망 과 같이 훨씬 광범위한 적용 가능성을 가진 특정 빌딩 블록에서 빌드되며 , 언급 된 Atari 게임을 마스터하는 데 사용 된 강화 학습 기사.

또한 현재 엔진은 자체 게임을 통해 "학습"을한다 . "밤새 Lefler의 6 대의 컴퓨터는 8 시간 동안 각각 14,000 개 이상의 게임을 플레이합니다."6 대의 컴퓨터 대 14,000 게임은 많은 게임입니다. " 컴퓨터가 서로 대결하는 것을 지켜 보는 데 스포츠 관심이 있습니다. Lefler의 활발한 소용돌이 치는 기계의 결과는 점점 증가하는 코모도의 성과입니다. "

당신의 질문의 대부분에 와서 :

최소한 프로그래머의 관점에서 볼 때 체스와 바둑 사이에는 중요한 차이점이 있습니다. 체스는 전술 게임에 가깝고, 바둑은 전략적인 게임에 가깝습니다. 이것은 체스 계산에서 깊이가 위치 평가보다 우선한다는 것을 의미합니다. 그것은 기본적으로 프리츠, 슈레더, 주니어와 같은 "오래된"엔진과 과일, 립카, 후디니, 스탁 피쉬, 코모도와 같은 새로운 세대를 구별하는 핵심 통찰력입니다. 각 라인의 끝에서 위치를 평가하고 로트 라인을 계산해야하고 평가 품질이 검색 깊이만큼 중요하지 않기 때문에 체스 엔진은 희박하고 빠른 평가 기능을 가지고 있습니다.

반면에 전술적 복잡성은 컴퓨터조차도 너무 크다. 결과적으로 위치와 움직임을 정확하게 평가하는 것이 중요합니다. 알파 고가 게임에 새로 도입 한 것은 컨볼 루션 뉴럴 네트워크를 기반으로하는이 평가력 입니다 .

마지막으로 요점 : 체스 평가 기능이 간결하고 빠르지 만 신경망에는 수백만 개의 매개 변수가 있습니다. 이러한 맥락에서 "학습"은 매개 변수 조정을 의미하기 때문에 자체 학습 이동 프로그램에 훨씬 더 많은 진보가 있습니다.

예, Alphago와 같은 설정을 사용하여 체스 엔진을 만들 수는 있지만 특히 좋지는 않습니다. 평가 기능을 실행하는 데 시간이 오래 걸리기 때문에 필요한 gps (알파 고의 기능)에 도달하려면 거대한 gpus 클러스터를 사용해야합니다. 매우 좋은 평가 기능을 만들 수 있지만 속도 균형은 그만한 가치가 없습니다.


1
Alphago와 같은 설정을 사용하여 체스 엔진을 만들 수 있다는 점 에 동의하지 않지만 특히 좋지는 않습니다 . 나는 1 년 이내에 NN에 크게 의존하는 체스 엔진이있을 것이라는 사실에 베팅 할 수 있습니다 (대부분 나무 검색과 몬테 카를로가있을 것입니다. 그러나 이것은 중요하지 않습니다). 최첨단 건어물. 그리고이 엔진은 슈퍼 기업 (오래 전에 AI 연구자들로부터 체스에 대한 관심이 사라졌기 때문에)에서 유래 한 것이 아니라, 강력한 호비스트에서 유래 한 것입니다.
살바도르 달리

몬테 카를로는 체스에서 완전히 쓸모가 없습니다. 그리고 NN은 쓸모가 없지만 너무 느립니다.
BlindKungFuMaster

3
왜 MCTS가 정확히 쓸모가 없습니까? 현재 보드 위치에서 시작하여 노드 깊이 5의 1000 게임을 실행하고 어떤 노드가 더 나은 기회를 갖는지 확인하는 것이 좋습니다. 이것은 데이터베이스의 이동 통계를 볼 때 14와 비슷한 것을 볼 때 수행하는 것과 매우 유사합니다. Kg4 흰색은 25 %, 14 Rb2에서는 45 %로 승리합니다. 완전히 쓸모없는 문구의 증거가 있습니까 ?
살바도르 달리

2
MCTS는 무작위성에 관한 것이 아니라 시뮬레이션에 관한 것입니다. MC에 대한 기본 입문서는 요점을 보여주기위한 임의성의 예를 보여줍니다. 노드 깊이 6을 사용하면 예리한 위치를 여러 번 재생할 수 있으며 매우 빠르며 (아직 신뢰할 수 있음) 어느 움직임이 더 나은지 대략적으로 추정 할 수 있습니다.
살바도르 달리

1
나의 진술은 대담하지 않고 주류입니다. 단지 체스 프로그래밍 사이트를 읽으면, 내 주장이 어느 정도인지 알 수 있습니다. MCTS는 10 년 동안 알려져 왔으며 체스에서는 다른 것들이 더 잘 작동합니다. 반면에 나는 당신의 진술이 직감을 느끼는 것 이상에 근거한 것이 아니라고 생각합니다. 이것이 마지막 의견입니다.
BlindKungFuMaster

5

spawkfish 라는 프로젝트가 있습니다 . 그것은 "컴퓨터 Go의 세계에 최근 컴퓨터 Go의 진보가 어떻게 적용될 수 있는지 탐구하는 것"을 목적으로하는 신경망 기반 엔진이다.

그것은 젊은 프로젝트이며 엔진은 여전히 ​​약합니다. 위치 플레이가 전술보다 낫기 때문에 플레이하는 것이 흥미 롭습니다.


2
당신은 그 마지막 문장으로 농담하지 않았습니다. 방금 몇 게임을 치렀고, 각 게임은 꽤 수준 높은 최종 게임에 잘 들어갔습니다. 이상한.
ETD

당신이 대답 한 이후, 이동 AI에 관한 새로운 정보가 등장한 것 같습니다. 관심이 있다면 뉴스와 연결되도록 질문을 업데이트했습니다.
thb

spawkfish에 대한 웹 사이트가 사라진 것 같습니다 ...
hkBst

4

비슷한 인공 지능이 체스에서 이길 수 있습니까? 순수한자가 훈련을 달성 할 수 있습니까?

짧은 대답은 "아니오"입니다.

체스와 바둑은 기하학과 당신이이기는 방법에서 파생되는 상대적 단순성과 복잡성에서 근본적으로 다릅니다. 이것들은 다른 하나에서는 쓸모없는 프로그램을 만들기 위해 결합됩니다.

체스에서는 상대를 체크하여 이기면 점수는 계산되지 않습니다. 물론 현명한 상대방은 당신이 장군을 인도하기 전에 종종 사임하지만 원칙은 같습니다. 당신은 게임이 끝날 때 더 많은 포인트를 가지고 승리. 내가 왕과 여왕이 있고 왕과 루크와 폰이 있지만 요새를 지었다면 여왕에게 9 포인트가 있고 루크와 폰에 6 포인트 만 있다는 것은 중요하지 않습니다. 게임은 무승부입니다.

이것은 체스와 이동의 복잡성에 근본적인 차이를 만듭니다. 당신은 점수를 유지하고 누가 이길 지 알 수 있습니다. 체스에서 누가이기는지 알 수있는 유일한 방법은 순수한 계산입니다. 이런 의미에서 체스는가는 것보다 훨씬 더 복잡합니다.

동시에 두 게임의 구조로 인해 체스보다 훨씬 더 많은 가능성이 있습니다. 이런 의미에서 체스는 체스보다 훨씬 복잡합니다.

체스 프로그램은 강도를 결정하는 특정 깊이까지 가능한 모든 움직임의 무차별 힘 계산으로 작동합니다. 바둑 프로그램은 이와 같이 작동 할 수 없으며 초급 레벨 바둑보다 더 진보 된 것을 연주합니다.

이동의 기본 목표는 상대방보다 더 많은 영토를 통제하는 것입니다. 게임이 끝날 때 차이가 1 석인지 100 석인지는 중요하지 않습니다. 돌을 놓을 때마다 두 가지 일을합니다. 당신은 잠재적 또는 실제 영역을 증가시키고 상대를 감소시킵니다.

때로는 영토의 실제 증가 또는 감소 인 경우 이동의 가치를 쉽게 계산할 수 있지만 잠재적 인 경우 평가하기가 매우 어렵습니다. 약한 바둑 선수로서 나는 "잠재적"보다 "실제"를 훨씬 잘 이해하고 더 강한 선수는 중앙에 훨씬 더 큰 잠재적 영토를 구축하여 가장자리와 모서리에 더 작은 실제 영토를 구축함으로써 나를 이길 것입니다. 더 강한 플레이어는 직감을 통해 판단하고 많은 게임을하고 "잠재적 인"영역을 구축하는 방법을 인식하는 느낌을 갖게됩니다.

이전에 나는 돌을 놓을 때마다 내 영토 (실제 또는 잠재력)가 증가하고 상대방의 행동이 줄어든다고 말했다 (실제로 어리석은 행동이라면 반대가 될 것이다!). 주어진 위치에서 모든 움직임이 동일하지는 않습니다. 한 위치에 놓인 돌은 다른 위치에 놓인 돌보다 훨씬 더 또는 훨씬 더 가치가 없습니다.

일반적으로 게임에는 플레이어가 자신의 돌을 서로 가까이 배치하여 자신의 영토를 표시하고 상대를 제한하는 작은 "싸움"이 있습니다. 한편 보드의 다른 부분에서 영역을 시작하거나 두 플레이어가 이미 돌을 가지고있는 다른 곳으로의 전투로 전환 할 수있는 가능성이 있습니다.

이러한 상황에서 매우 중요한 것은 한 번의 전투를 중단 할시기를 아는 것입니다. 왜냐하면 잠재적 이익이 줄어들었고 또 다른 전투로 전환하거나 아마도 처녀 지역으로 파업 할 수 있기 때문입니다. 때때로 이것은 어려운 계산에 의존하지만 종종 훨씬 더 까다 롭고 계산되지 않습니다. 약한 플레이어는 강한 지불자가 매번 나를 때릴 것입니다.

이러한 상황에서 컴퓨터가하는 일은 확률 적 방법을 사용하여 특정 움직임에 대한 예상 점수를 생성하는 것입니다. 때로는 실제 가치가 조금 더 적거나 때로는 조금 더 많지만 장거리에 걸쳐 더 많거나 적을 수도 있습니다. 게임의 장거리 이동 중에 작은 오류가 취소되고 전략이 승리 할 것으로 예상하면서 가장 높은 기대 값으로 이동을 계속 선택합니다.

이것은 체스 플레이어에게 친숙하게 들리는 전략이 아니며 체스에서 작동하는 전략이 아닙니다. 그것은 주식 시장에서 일어나는 일을 따르는 모든 사람들에게 친숙하게 들리는 것입니다. 그것은 컴퓨터가 시장을 "니켈과 다임"하기 위해 수천 건의 작은 베팅을하거나 매 초마다 제안 된 베팅을하고 심지어 밀리 초 동안 아주 조금씩 유리하게 움직일 수있는 "고주파 거래"라고하는 것과 매우 유사하게 들립니다.

이미 금융 시장은 이러한 종류의 알고리즘 거래에 의해 지배되고 있으며, 이는 이러한 종류의 프로그램이 이미 보드 게임보다 훨씬 유리한 영역에서 승리했음을 시사합니다.


4
고주파 거래는 게임을하는 것과 다를 바가 없습니다. 완전히 다른 알고리즘. 또한 답에 흥미로운 것들이 많이 있지만, 요점을보기가 어렵습니다 .TL; DR을 추가하십시오. ;-)
BlindKungFuMaster

@BlindKungFuMaster HFT와 AlphaGo의 기본 원칙은 확률 론적 원칙입니다. 이 "이동"에서 예상되는 이득은 x %입니다. 장기적으로 그러한 움직임 / 베팅의 축적은 AlphaGo의 게임에서이기거나 HFT 트레이더에게 행운을 가져다 줄 것입니다. 그러나 이세돌의 "플래시 충돌"또는 "원더 이동"이있을 때마다 승리 / 이익이 손실로 바뀔 것입니다. 결코 프로그래밍을 무효화하지 않습니다. 매번 절대 최고의 이동을 찾도록 프로그래밍되지 않았습니다. 그것은 여행사의 세일즈맨 문제에 대한 의사 솔루션과 비슷합니다.
Brian Towers

당신이 대답 한 이후, 이동 AI에 관한 새로운 정보가 등장한 것 같습니다. 관심이 있다면 뉴스와 연결되도록 질문을 업데이트했습니다.
thb

1
@thb,이 대답은 같이 지금 AlphaZero의 새로운 성공 주어진 다소 구식이라고 생각 arxiv.org/abs/1712.01815
마크 S.

왜 그렇습니까? 자신의 얕은 기준으로 다른 사람을 판단하지 마십시오.
브라이언 타워

4

(AlphaGo에 대한 심도 깊은 기술 토론을 원하는 사람은 누구나 내 게시물을 볼 수 있습니다 )

짧은 답변 : 아니오

긴 대답 :

먼저 Google이 알파 베타를 알파 고에 구현하지 않은 이유를 이해해야합니다. Stockfish와 Komodo (및 모든 체스 엔진)에는 알파 베타가 있습니다. 왜 AlphaGo가 그렇지 않습니까?

이유 : Go 위치를 정적으로 정확하게 평가할 수있는 쉽고 저렴한 방법은 없습니다.

체스에서 우리는 항상 위치를 정적으로 평가하는 매우 효과적인 방법 인 재료를 셀 수 있습니다. 완벽하지는 않지만 매우 빠르며 체스를위한 훌륭한 프록시입니다.

Monte-Carlo로 상태 공간을 검색하는 것은 알파 베타 보다 열등한 방법입니다. 구글은 가능하다면 알파-베타를 구현했을 것이다. 따라서 그들은 훨씬 느린 것을 사용해야했습니다.

체스 엔진은 Monte-Carlo와 더 잘 어울리지 않습니다.


다시 생각할 시간입니까, 아니면 아직 아닐까요?
Evargalo

3

다른 답변에 동의하지 않습니다. 나는 인공 지능 분야에서 전문적으로 일하는 컴퓨터 과학자이며 체스의 후보자이며이고의 3 단입니다.

지금은 Deep Mind의 방법이 체스에 적용될 수 있는지 확실하지 않지만, 가능하다고 생각합니다.

현재 최고의 체스 게임 프로그램은 점점 더 휴리스틱에 의존하고 있으며 체스에 AlphaGo 아키텍처를 사용하려는 시도는 어떤 방식 으로든 동일한 사고 방식에 있습니다.

변경해야 할 AlphaGo의 주요 아키텍처 기능 중 하나는 키 사각형 (또는 히트 맵)을 식별하는 방법입니다.이 방법은 igo와 유사한 게임에 특화되어 있으며 체스에는 직접 적용 할 수 없습니다. 이 방법의 일부 아날로그는 AlphaGo 아키텍처가 체스와 관련이 있도록 개발되어야합니다. 예를 들어, 키 제곱이 아닌 "키 조각"이라는 개념을 가질 수 있습니다.

필자는 체스가 더 전술적이기 때문에 AlphaGo 아키텍처가 체스와 관련이 없다는 주장은 좋은 주장이 아니라고 생각합니다. 궁극적으로 두 게임 모두 AlphaGo가 체스에 확실히 적응할 수있을 정도로 모양이 유사한 검색 트리를 가지고 있기 때문입니다.


귀하의 주장이 정확할 수 있으므로 귀하에게 +1을 주었지만, 누군가가 논문을 출판 할 때까지는 확실하지 않습니다.
SmallChess

어? Brian Towers가 지적한대로 종이가 이미 존재합니다. 대답은 '예'입니다.
열 자기 응축 보손

내가 옳은 것 같아
Cecil De Vere

@CecilDeVere는 다른 답변에 동의하지 않는 가운데 2 명은 정답을 지적했습니다. 그리고 현재로서는 불분명하다고 말하지는 않지만 그 대답은 '그렇다'는 것은 명백합니다.
열 자기 응축 보손

3

대답은 그렇습니다! AlphaZero가 규칙에 대한 지식과 인간 체스 지식없이 순수한 자체 훈련을 사용하여 최고의 체스 프로그램을 이겼을 때 구글은 어제 이것을 증명했습니다. 수락 된 답변이 잘못되었습니다. 기사에 대한 링크는 여기 : 링크


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.