답변:
로부터 깊은 스택 종이 :
이것은 훈련을위한 것 같습니다 :
턴 네트워크의 경우, 175 코어 년의 계산 시간을 사용하여 Calcul Quebec MP2 리서치 클러스터의 6,144 개의 CPU 코어로 턴 카드를 처리 한 후부터 천만 개의 포커 턴 상황이 발생하고 해결되었습니다. 플롭 네트워크의 경우, (플롭 카드를 처리 한 후부터) 백만 개의 포커 플롭 상황이 발생하여 해결되었습니다. 이러한 상황은 턴 카드 직후의 공개 상태에서 반 사실 값에 사용되는 턴 네트워크를 사용하여 DeepStack의 깊이 제한 솔버를 사용하여 해결되었습니다. 우리는 20 GPUS의 클러스터와 GPU 1 년의 계산 시간의 절반을 사용했습니다. 보조 네트워크의 경우 천만 개의 상황이 발생했으며 22,100 개의 가능한 모든 플롭을 열거하고 플롭 네트워크의 출력에서 반상적인 값을 평균하여 목표 값을 얻었습니다.
그리고 이것은 실제 플레이를 위해 :
해석 계산 및 신경망 평가는 모두 Torch7 (53)에서 구현되며 단일 NVIDIA GeForce GTX 1080 그래픽 카드에서 실행됩니다.
비교 : AlphaGo의 분산 버전은 1.920 개의 CPU와 280 개의 GPU를 실행했습니다.