휴먼 데이터베이스가없는 AlphaGo (및 강화 학습을 사용하는 다른 게임 프로그램)


13

나는 그 주제의 전문가가 아니며, 나의 질문은 아마도 매우 순진합니다. 그것은 AlphaGo 프로그램에서 사용되는 강화 학습의 힘과 한계를 이해하기위한 에세이에서 나옵니다.

AlphaGo 프로그램은 무엇보다도 (몬테카를로 나무 탐색 등) 거대한 인간 네트워크 게임에서 훈련 된 신경망을 사용하여 만들어졌으며,이 게임은 스스로 여러 번 프로그램.

이제 우리는 휴먼 데이터베이스없이 그러한 프로그램을 구축하려고 시도했을 것입니다. 즉, 규칙을 알고 규칙을 알고 나무를 탐색하고 신경망을 개선하기 위해 스스로를 대항하는 Go의 기본 프로그램으로 시작합니다. 우리는 많은 게임 자체에 반대하여 최고의 인간 플레이어와 경쟁하거나 이길 수있는 프로그램에 도착할까요? 그렇다면 얼마나 많은 게임이 필요합니까? 또는 반대로, 그러한 프로그램이 훨씬 약한 플레이어로 수렴됩니까?

AlphaGo가 최신이기 때문에 실험이 이루어지지 않았다고 가정합니다. 그러나 그 대답은 전문가에게는 분명 할 수 있습니다. 그렇지 않으면 어떤 교육받은 추측이라도 나에게 관심이있을 것이다.

"더 간단한"게임에 대해서도 같은 질문을 할 수 있습니다. AlphaGo에 사용 된 것과 거의 동일한 강화 학습 기술을 사용하지만 체스 프로그램에 휴먼 데이터베이스를 사용하지 않으면 결국 최고의 인간을 이길 수있는 프로그램을 얻게 될까요? 그렇다면 얼마나 빠릅니까? 이것이 시도 되었습니까? 아니면 체스가 아니라면 체커 또는 더 간단한 게임은 어떻습니까?

고마워

답변:


10

나는 전문가가 아니지만 AlphaGo Zero가 귀하의 질문에 대답하는 것처럼 보입니다. https://deepmind.com/blog/alphago-zero-learning-scratch/

이전 버전의 AlphaGo는 처음에 수천 명의 인간 아마추어 및 전문 게임을 교육하여 Go 게임 방법을 배웠습니다. AlphaGo Zero는이 단계를 건너 뛰고 완전히 랜덤 한 플레이에서 시작하여 스스로 게임을하는 것만으로 플레이하는 법을 배웁니다. 그렇게함으로써, 그것은 인간의 플레이 수준을 빠르게 능가했고, 이전에 출판 된 챔피언을 물리 친 AlphaGo 버전을 100 게임 0으로 물리 쳤다.


더 최근입니까?
kosmos

1
이것은 2017 년 10 월 18 일에 출판되었습니다.
ncasas

인간에 대한 결과를 아는 것은 흥미로울 것입니다. 사전 훈련 된 휴먼 데이터베이스의 한 가지 이유는 휴먼 상대 에 대해 MCTS 알고리즘을 개선 하는 것입니다. Original AlphaGo는 다른 ML이 아닌 인간과 대결하도록 최적화되었습니다. 따라서 AlphaGo Zero가 원래 AlphaGo보다 "더 나은"지 또는 게임 이론적 의미에서 우위를 차지하는지 말하기 어렵습니다. 예를 들어 AlphaGo Zero는 AlphaGo를 이깁니다. . .
닐 슬레이터

4
닐, 예, 재미있을 것입니다. 그러나 나는 알파 고 제로에 대한 인간의 기회의 센트를 걸지 않을 것입니다.
Joël

1

9

AlphaGo 논문의 저자에게도 같은 질문이 있었고 그의 답변은 AlphaGo가 처음부터 배우면 어떻게 될지 모른다는 것입니다 (테스트하지 않았습니다).

그러나 게임의 복잡성 때문에 사전 지식없이 알고리즘을 처음부터 학습하는 것은 어려운 작업입니다. 따라서 인간이 습득 한 지식을 사용하여 마스터 레벨로 업그레이드하여 그러한 시스템을 구축하기 시작하는 것이 합리적입니다.

비록 인간의 움직임이 트리 노드 (상태)에서 행동 선택을 편향 시키지만,이 이전에는 붕괴 요인이 있다는 점은 주목할 가치가 있습니다. 이것은 특정 상태로의 방문이 증가하면 알고리즘의 탐색을 장려하기 전에 이전의 강도를 줄입니다.

현재 AlphaGo의 마스터리 수준은 인간의 플레이 방식과 얼마나 가까운 지 알 수 없습니다 (토너먼트에서는 인간이 거의 수행 할 확률이 거의없는 움직임을 한 번 수행했습니다! . 해당 테스트 알고리즘을 실제로 구현하여 이러한 모든 질문에 대답 할 수 있습니다.

최신 DeepMind 논문이 귀하의 질문에 답변하므로 답변을 수정해야합니다 . AlphaGo의 첫 번째 버전에 대한 이전의 모든 경험에서 나온 많은 발전이 있었고 실제로 읽을 가치가 있습니다.


당신은 환영합니다 :)
Constantinos

8

AlphaGo의 알고리즘을 이해 한 한, Monte-Carlo tree 검색을 사용하여 최상의 조치를 선택하는 간단한 RL (reinforcement learning) 프레임 워크를 기반으로합니다. 무엇보다도 RL 알고리즘이 다루는 상태와 동작은 단순히 게임의 전체 가능한 구성이 아니라 (Go는 매우 복잡함) 정책 네트워크와 가치 네트워크를 기반으로하며 실제 게임에서 배운 후 AlphaGo vs AlphaGo 게임을 통해 향상되었습니다.

그렇다면 실제 게임에서의 훈련이 시간을 단축시키는 지름길인지 아니면 그러한 효율성을 얻는 데 필요한 옵션인지 궁금 할 것입니다. 아무도 답을 실제로 모른다고 생각하지만, 우리는 몇 가지 가정을 말할 수 있습니다. 첫째, 좋은 움직임을 촉진하는 인간의 능력은 단순한 신경망보다 훨씬 복잡한 지능 때문입니다. 보드 게임의 경우 메모리, 경험, 논리 및 느낌이 혼합되어 있습니다. 이 방향으로, AlphaGo 알고리즘이 Go 게임의 전체 구성 중 큰 비율을 명시 적으로 탐색하지 않고도 그러한 모델을 만들 수 있을지 확신하지 못합니다 (실제로는 불가능합니다). 현재의 연구는 관계형 RL 또는 귀납적 논리 학습과 같은 게임의보다 복잡한 표현을 구축하는 데 중점을두고 있습니다. 그런 다음 더 간단한 게임 (체스의 경우는 아니지만 확실하지는 않음)의 경우

여전히 의견 일뿐입니다. 그러나 귀하의 질문에 대답하는 열쇠는 오늘날 지식 측면에서 여전히 매우 간단한 RL 접근 방식에 있다고 확신합니다. 우리는 이러한 게임을 처리 할 수있는 요소를 실제로 파악할 수 없으며, 인간을 물리 칠 때까지 찾은 가장 좋은 방법은 대략적으로 배우고 학습 한 모델을 대규모 계산으로 개선하는 것입니다.


1

복잡하고 부분적으로 관찰되는 환경에서는 사람 데이터베이스가없는 경쟁적인 자체 플레이가 가능합니다. OpenAI는이 방향에 중점을두고 있습니다. 이 기사 에 따르면 :

셀프 플레이는 환경이 항상 AI가 개선하기에 올바른 난제임을 보장합니다.

그것이 자기 놀이의 성공을위한 중요한 이유입니다.

OpenAI는 2017 년 8 월 11 일 Dota 2 1v1의 초 인간 결과를 달성했으며 표준 토너먼트 규칙에 따라 Dendi를 2-0으로 이겼습니다 .

봇은 자기 플레이를 통해 게임을 처음부터 배웠으며 모방 학습 또는 트리 검색을 사용하지 않습니다. 이것은 실제 인간과 관련된 복잡하고 복잡한 상황에서 잘 정의 된 목표를 달성하는 AI 시스템을 구축하는 단계입니다.

이 방향은 게임뿐만 아니라 로봇 작업에도 유망합니다.

우리는 자기 플레이를 통해 시뮬레이션 AI가 이러한 기술을 염두에두고 환경을 명시 적으로 설계하지 않고 공 태클, 더킹, 페이 킹, 발로 차기, 잡기 및 다이빙과 같은 물리적 기술을 발견 할 수 있음을 발견했습니다.

다음 단계에서는 자기 플레이에만 국한되지 않고 협력, 경쟁 및 의사 소통 방법을 배우기 위해 방법을 확장합니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.