4
강화 학습에서 잘못된 움직임을 처리하는 방법은 무엇입니까?
5in-a-row / gomoku를 재생할 수있는 AI를 만들고 싶습니다. 제목에서 언급했듯이 강화 학습을 사용하고 싶습니다. 내가 사용 정책 그라데이션 기준으로, 즉 강화, 방법. 가치와 정책 함수 근사를 위해 신경망을 사용 합니다 . 그것은 컨볼 루션되고 완전히 연결된 레이어를 가지고 있습니다. 출력을 제외한 모든 레이어가 공유됩니다. 정책의 출력 계층에는 (보드 크기) 출력 …