나는 그 주제의 전문가가 아니며, 나의 질문은 아마도 매우 순진합니다. 그것은 AlphaGo 프로그램에서 사용되는 강화 학습의 힘과 한계를 이해하기위한 에세이에서 나옵니다.
AlphaGo 프로그램은 무엇보다도 (몬테카를로 나무 탐색 등) 거대한 인간 네트워크 게임에서 훈련 된 신경망을 사용하여 만들어졌으며,이 게임은 스스로 여러 번 프로그램.
이제 우리는 휴먼 데이터베이스없이 그러한 프로그램을 구축하려고 시도했을 것입니다. 즉, 규칙을 알고 규칙을 알고 나무를 탐색하고 신경망을 개선하기 위해 스스로를 대항하는 Go의 기본 프로그램으로 시작합니다. 우리는 많은 게임 자체에 반대하여 최고의 인간 플레이어와 경쟁하거나 이길 수있는 프로그램에 도착할까요? 그렇다면 얼마나 많은 게임이 필요합니까? 또는 반대로, 그러한 프로그램이 훨씬 약한 플레이어로 수렴됩니까?
AlphaGo가 최신이기 때문에 실험이 이루어지지 않았다고 가정합니다. 그러나 그 대답은 전문가에게는 분명 할 수 있습니다. 그렇지 않으면 어떤 교육받은 추측이라도 나에게 관심이있을 것이다.
"더 간단한"게임에 대해서도 같은 질문을 할 수 있습니다. AlphaGo에 사용 된 것과 거의 동일한 강화 학습 기술을 사용하지만 체스 프로그램에 휴먼 데이터베이스를 사용하지 않으면 결국 최고의 인간을 이길 수있는 프로그램을 얻게 될까요? 그렇다면 얼마나 빠릅니까? 이것이 시도 되었습니까? 아니면 체스가 아니라면 체커 또는 더 간단한 게임은 어떻습니까?
고마워