5in-a-row / gomoku를 재생할 수있는 AI를 만들고 싶습니다. 제목에서 언급했듯이 강화 학습을 사용하고 싶습니다.
내가 사용 정책 그라데이션 기준으로, 즉 강화, 방법. 가치와 정책 함수 근사를 위해 신경망을 사용 합니다 . 그것은 컨볼 루션되고 완전히 연결된 레이어를 가지고 있습니다. 출력을 제외한 모든 레이어가 공유됩니다. 정책의 출력 계층에는 (보드 크기) 출력 단위와 softmax 가 있습니다. 따라서 확률 론적입니다. 그러나 네트워크가 유효하지 않은 이동에 대해 매우 높은 확률을 생성한다면 어떻게 될까요? 에이전트가 "X"또는 "O"가있는 사각형을 확인하려고 할 때 잘못된 이동입니다. 게임 상태에 빠질 수 있다고 생각합니다.
이 문제에 대한 해결책을 추천 해 주시겠습니까?
내 생각 엔 액터 비평 방법 을 사용하는 것입니다. 무효 한 움직임을 위해서는 부정적인 보상을주고 상대에게 차례를 넘겨 주어야합니다.