AlphaGo Zero의 "신규 강화 학습 알고리즘"은 무엇입니까?


10

어떤 이유로 든 AlphaGo Zero는 놀라운 결과에도 불구하고 Original AlphaGo만큼 많은 홍보를 얻지 못했습니다. 처음부터 시작하여 이미 AlphaGo Master를 이겼으며 수많은 다른 벤치 마크를 통과했습니다. 훨씬 더 믿을 수없이 40 일 만에이 작업이 완료됩니다. 구글은이를 "세계 최고의 Go 플레이어"라고 지었다 .

DeepMind는 이것이 "새로운 형태의 강화 학습"이라고 주장합니다.이 기법은 참신한가요? 아니면이 기술이 사용 된 다른 시간이 있었습니까? 그렇다면 그 결과는 무엇입니까? 내가 말하는 요구 사항은 1) 인간의 개입이없고 2) 역사적인 놀이가 아니라고 생각하지만 유연합니다.

이것은 비슷한 질문으로 보이지만 모든 답변은 AlphaGo Zero가 최초라는 가정에서 시작된 것 같습니다.


강화 학습은 새로운 것이 아닙니다. Google이 첫 번째 기술이라고 주장한 기술은 무엇입니까?
HelloWorld

링크 된 웹 사이트에 인용문이 있으며 기사에서 "AlphaGo Zero의 신경망은 새로운 강화 학습 알고리즘으로 자체 게임 게임에서 훈련되었습니다."라는 문구를 사용합니다.
Dubukay

1
셀프 플레이는 새로운 것이 아닙니다. 그것은 구글 이전에 존재했다. 그들의 알고리즘에는 그것들을 "신기한"것으로 만드는 세부 사항들이 있습니다. 다른 사람이 대답 할 수 있습니다.
HelloWorld

2
나는 그들의 접근 방식이 그토록 놀랍도록 좋은 이유와 그것이 다른 분야에서 우리가 기대해야하는 것인지 이해하려고 노력하고있는 것 같습니다. 새로운 철학입니까 아니면 정말 좋은 코드입니까?
Dubukay

1
여기에서 본 논문의 사본을 발견했습니다 : nature.com/articles/… (공유 액세스 토큰을 포함하는 블로그의 공유 액세스 토큰을 포함하므로 합법적 인 공개 공유 AFAICS입니다). 심지어는 실제 참신을 선택하기 어렵다하지만 설명을 읽은 후 - 모든 개별 아이디어가 기존 RL / 게임 재생 기술을 것 같다, 그냥 소설 중 특정 조합 일 수있다
닐 슬레이터

답변:


6

NatureAlphaGo Zero 기사 , "인간의 지식없이 게임을 마스터하기"는 이전 버전과 4 가지 주요 차이점을 주장합니다.

  1. 자체 학습 만 (인간 게임에 대해서는 교육되지 않음)
  2. 입력으로 보드와 돌만 사용 (손으로 쓴 기능 없음).
  3. 정책 및 가치에 단일 신경망 사용
  4. 이 결합 된 정책 / 값 네트워크를 사용하여 좋은 움직임을 검색 할 위치를 안내하는 새로운 트리 검색 알고리즘.

포인트 (1)과 (2)는 강화 학습에서 새로운 것은 아니지만 질문에 대한 의견에 언급 된대로 이전 AlphaGo 소프트웨어를 개선 합니다. 그것은 그들이 무작위로 초기화 된 가중치에서 시작하여 순수한 강화 학습을 사용하고 있음을 의미합니다. 이는 더 빠르고 더 빠른 학습 알고리즘으로 가능합니다.

그들의 주장은 "우리의 주요 기여는 인적 영역 지식 없이도 초 인간적인 성과가 달성 될 수 있음을 입증하는 것입니다." (p. 22).

포인트 (3)과 (4)는 알고리즘이 이전 방식보다 단순하고 일반적이라는 점에서 참신합니다. 그들은 또한 Guo et al.의 이전 연구에 대한 개선이라고 언급했다 .

정책 / 가치 네트워크를 통합하면 (3)보다 효율적인 몬테카를로 트리 검색 변형을 구현하여 좋은 움직임을 검색하고 동시에 검색 트리를 사용하여 네트워크를보다 빠르게 훈련시킬 수 있습니다 (4). 이것은 매우 강력합니다.

또한, 새로운 이동에 대한 검색을 최적화하기 위해 배치 및 데이터 구조 재사용과 같은 흥미로운 구현 세부 사항을 설명합니다.

그 결과 이전 버전의 소프트웨어에 대해 176 개의 GPU가 아닌 4 개의 TPU와 48 개의 TPU에서 실행되는 컴퓨팅 성능이 덜 필요합니다.

이것은 분명히 Go 소프트웨어의 맥락에서 "새롭습니다". I (3), (4)도 넓은 맥락에서 "소설"이며, 다른 강화 학습이 같은 도메인에 적용 할 것이라고 믿는다 예를 들어 로봇.


(4)는 David Silver의 강의 에서 고전 게임에 대한 강의 10에서 언급 된 것으로 생각 됩니다. 기존의 많은 경우에 MCTS는 이미 훈련 된 ML에 의해 인도됩니다. AlphaGo Zero의 경우, 이것은 뒤집히고 MCTS의 결과는 ML에 대한 학습 목표를 설정하는 데 사용됩니다. 그러나 그것이 정말로 "소설"인지 궁금하게 만드는 것은 강의에서 언급 한 것을 할 수 있다는 것입니다. . .
닐 슬레이터
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.