라운드 기반 보드 게임을 위해 신경망을 훈련시키는 방법?

11

틱택 토, 체스, 위험 또는 다른 라운드 기반 게임과 같은 라운드 기반 보드 게임을 위해 신경망을 훈련시키는 방법이 궁금합니다. 추론으로 다음 움직임을 얻는 것은 게임 상태를 입력으로 공급하고 출력을 현재 플레이어의 움직임으로 사용함으로써 매우 직설적 인 것처럼 보입니다. 그러나 그 목적을 위해 인공 지능을 훈련시키는 것은 그렇게 간단하지 않은 것 같습니다.

한 번의 움직임이 양호하거나 그렇지 않은 경우 등급이 없을 수 있으므로 한 번의 움직임 훈련이 올바른 선택이 아닌 것 같습니다
신경망을 훈련시키기 위해 전체 게임의 모든 게임 상태 (입력) 및 이동 (출력)을 사용하는 경우, 잃어버린 게임 내에서 모든 이동이 나쁜 것은 아니므로 올바른 선택이 아닌 것 같습니다

그렇다면 라운드 기반 보드 게임을 위해 신경망을 훈련시키는 방법이 궁금합니다. tensorflow를 사용하여 tic-tac-toe에 대한 신경망을 만들고 싶습니다.

training tensorflow game-ai

— 소리 치다
소스

10

좋은 질문입니다! NN은 이런 유형의 문제에 대해 매우 유망합니다 : Giraffe Chess . Lai의 업적 은 상당히 큰 것으로 여겨졌 지만, 불행히도 AlphaGo가 주목을 받기까지 몇 달이 걸렸습니다. (라이프는 이후 기린 엔진에는 그리 좋지는 않지만 DeepMind에 의해 고용되었다는 점에서 모두 잘 밝혀졌습니다 .)

Lai의 접근 방식이 매우 유용하다는 것을 알았으며 확실한 결과가 뒷받침됩니다.

게임 이론 및 조합 게임 이론 에서 순차가 선호되는 용어이므로 게임에 수학 분석을 적용하는 필드 이므로 "라운드 기반"과 반대로 " 순차 " 를 사용할 수 있습니다 .

당신이 열거 한 게임 은 현대 전략 보드 게임이나 일반적인 게임과 구별하기 위해 " 추상 " 이라고 더 불립니다 . 강력한 테마를 사용하며 일반적으로 역학 및 요소 측면에서 추상적 게임보다 덜 컴팩트합니다. 이것은 추상 게임이 스도쿠와 같은 퍼즐의 경우와 같이 순차적 게임이나 보드 게임 또는 특정 게임에만 국한되지 않는다는 경고가 있습니다.

이 게임 그룹의 공식 명칭은 일반적으로 " Tic-Tac-Toe"를 "사소한"(해결 가능하고 쉽게 해결할 수있는) 및 비 사소한 (다루기 쉽고 해결할 수없는)으로 분류하여 " 당파 적 , 순차적, 결정 론적 , 완벽한 정보 "입니다. 체스와 바둑 같은 게임.

— 듀크 주
소스

7

나는 체스 선수이며 내 대답은 체스에만 있습니다.

강화 학습으로 중립 네트워크를 훈련시키는 것은 새로운 것이 아니며 문헌에서 여러 번 수행되었습니다.

일반적인 전략을 간단히 설명하겠습니다.

네트워크의 목적은 위치 평가 를 배우는 것 입니다. 우리는 모두 여왕보다 여왕이 강하다는 것을 알고 있지만 명시 적으로 프로그래밍하지 않고 네트워크에 알릴 수 있습니까? 폰 구조는 어떻습니까? 네트워크가 포지션의 승패 여부를 평가하는 방법을 이해합니까?
이제 네트워크가 필요한 이유를 알았습니다. 네트워크를 설계해야합니다. 디자인은 연구마다 근본적으로 다릅니다. 딥 러닝이 대중화되기 전에 사람들은 얕은 네트워크를 사용하고있었습니다. 요즘에는 많은 계층의 네트워크가 눈에.니다.
네트워크가 확보되면 체스 엔진을 만들어야합니다. 신경망은 자체적으로 마술처럼 체스를 할 수 없으므로 체스 엔진에 연결해야합니다. 다행히도 우리는 네트워크가 우리를 위해 그것을 할 수 있기 때문에 위치 평가 코드를 작성할 필요가 없습니다.
이제 게임을해야합니다. 고품질 체스 데이터베이스로 시작하거나 AI 에이전트가 다른 플레이어 (예 : 자체, 다른 AI 에이전트 또는 인간)와 게임을 할 수 있습니다. 이를 강화 학습이라고 합니다.
게임을하는 동안 네트워크 매개 변수를 업데이트합니다. 이것은 확률 적 경사 하강 (또는 다른 유사한 기술)에 의해 수행 될 수있다. 우리는 원하는만큼, 수백만 번의 반복을 통해 훈련을 반복합니다.
마지막으로, 체스를위한 훈련 된 중립 네트워크 모델이 있습니다!

자세한 내용은 다음 자료를 참조하십시오.

https://chessprogramming.wikispaces.com/Learning

— 헬로 월드
소스

여기에는 작은 구멍들도 있습니다

— 분위

이것은 요약하지 않고 외부 링크를 제공하는 것이 미래에 어떻게 손상 될 수 있는지에 대한 예입니다. 제공된 링크가 죽었으므로

— Greg Hilston

4

강화 학습에 익숙해 져야한다고 생각합니다. 이 기계 학습 분야에서 에이전트는 환경과 상호 작용하고 그 후에 에이전트는 보상을받습니다. 이제 에이전트는 환경이 게임 인 신경 네트워크이며 에이전트는 승리하면 +1을, 잃으면 -1을받을 수 있습니다. 이 상태, 조치, 보상 경험 튜플을 사용하여 상담원을 교육 할 수 있습니다. YouTube와 Sutton의 책에 대한 David Silver의 강의도 추천 할 수 있습니다.

— 몰 나르 이스 반
소스