Nature 의 AlphaGo Zero 기사 , "인간의 지식없이 게임을 마스터하기"는 이전 버전과 4 가지 주요 차이점을 주장합니다.
- 자체 학습 만 (인간 게임에 대해서는 교육되지 않음)
- 입력으로 보드와 돌만 사용 (손으로 쓴 기능 없음).
- 정책 및 가치에 단일 신경망 사용
- 이 결합 된 정책 / 값 네트워크를 사용하여 좋은 움직임을 검색 할 위치를 안내하는 새로운 트리 검색 알고리즘.
포인트 (1)과 (2)는 강화 학습에서 새로운 것은 아니지만 질문에 대한 의견에 언급 된대로 이전 AlphaGo 소프트웨어를 개선 합니다. 그것은 그들이 무작위로 초기화 된 가중치에서 시작하여 순수한 강화 학습을 사용하고 있음을 의미합니다. 이는 더 빠르고 더 빠른 학습 알고리즘으로 가능합니다.
그들의 주장은 "우리의 주요 기여는 인적 영역 지식 없이도 초 인간적인 성과가 달성 될 수 있음을 입증하는 것입니다." (p. 22).
포인트 (3)과 (4)는 알고리즘이 이전 방식보다 단순하고 일반적이라는 점에서 참신합니다. 그들은 또한 Guo et al.의 이전 연구에 대한 개선이라고 언급했다 .
정책 / 가치 네트워크를 통합하면 (3)보다 효율적인 몬테카를로 트리 검색 변형을 구현하여 좋은 움직임을 검색하고 동시에 검색 트리를 사용하여 네트워크를보다 빠르게 훈련시킬 수 있습니다 (4). 이것은 매우 강력합니다.
또한, 새로운 이동에 대한 검색을 최적화하기 위해 배치 및 데이터 구조 재사용과 같은 흥미로운 구현 세부 사항을 설명합니다.
그 결과 이전 버전의 소프트웨어에 대해 176 개의 GPU가 아닌 4 개의 TPU와 48 개의 TPU에서 실행되는 컴퓨팅 성능이 덜 필요합니다.
이것은 분명히 Go 소프트웨어의 맥락에서 "새롭습니다". I (3), (4)도 넓은 맥락에서 "소설"이며, 다른 강화 학습이 같은 도메인에 적용 할 것이라고 믿는다 예를 들어 로봇.