다음 답변에 대한 후속 조치 :
내 질문은 어떻게 신경망이 발생하지 않은 위치에서 무엇을해야하는지 배우는 것이다. 실제 AZ가 훈련 된 신경망의 바이어스 + 가중치를 사용하여 MCTS를 실행한다고하면 신경망이 이러한 값을 계산하는 방법으로 한 단계 뒤로 밀립니다. 인간의 지식이없는 임의의 자기 놀이를 겪었다면, 결코 본 적이없는 위치에 가중치를 부여하는 방법을 어떻게 결정 하는가?
다음 답변에 대한 후속 조치 :
내 질문은 어떻게 신경망이 발생하지 않은 위치에서 무엇을해야하는지 배우는 것이다. 실제 AZ가 훈련 된 신경망의 바이어스 + 가중치를 사용하여 MCTS를 실행한다고하면 신경망이 이러한 값을 계산하는 방법으로 한 단계 뒤로 밀립니다. 인간의 지식이없는 임의의 자기 놀이를 겪었다면, 결코 본 적이없는 위치에 가중치를 부여하는 방법을 어떻게 결정 하는가?
답변:
신경망 또는 명시 적 코드로 인스턴스화 된 체스 엔진의 평가 기능은 항상 모든 보드 위치에 값을 할당 할 수 있습니다. 당신이 보드에 위치를 주면, 게임에서 결코 발생하지 않는 터무니없는 것조차도, 그것은 한 플레이어 또는 다른 플레이어에게 얼마나 유리한지를 나타내는 숫자를 내뱉을 수 있습니다. 체스에서 보드 위치의 수는 엄청나게 거대하기 때문에, 훈련은 무한한 게임 트리 샘플에서만 발생할 수 있습니다. 엔진은 단순히 이전에 계산 된 보드 위치 값을 불러오는 것이 아니라 조각의 배열을 기반으로 계산을 수행합니다. 신경이 아닌 인터넷 예제의 경우 체스 엔진 평가의 일부는 각 조각의 값을 측면에 더하고 상대 조각의 총 값을 뺀 것입니다. 그때,
엔진이 훈련되지 않은 경우, 평가 기능의 파라미터가 (보통) 임의의 값으로 시작하기 때문에 위치에 할당 된 값은 임의적 일 수 있습니다. 훈련 단계의 목표는 엔진의 매개 변수를 조정하여 플레이어의 승리 상태 일 가능성이 높은 보드 위치에 높은 점수를 할당하는 것입니다.
에서 AlphaZero의 용지 (3 페이지)
AlphaZero의 딥 뉴럴 네트워크의 파라미터는 무작위로 초기화 된 파라미터에서 시작하여 자체 재생 강화 학습에 의해 학습됩니다. MCTS는 두 선수의 움직임을 선택하여 게임을합니다. 게임이 끝날 때, 게임 결과를 계산하기 위해 게임의 규칙에 따라 터미널 위치가 기록됩니다 : -1 손실, 0 무승부, +1 승리. 신경망 파라미터는 예측 결과와 게임 결과 사이의 오류를 최소화하고, 정책 벡터와 검색 확률의 유사성을 최대화하도록 업데이트된다.
[견적에서 제거 된 수학 기호]
요약하자면, 훈련 중에 AlphaZero는 자신과 대결하는 게임을했습니다. 게임이 끝나면 게임 결과와 게임 진행 방법에 대한 예측 정확도를 사용하여 신경망을 조정하여 다음 게임에서 더 정확 해졌습니다. AlphaZero는 자신이 본 모든 직책에 대한 기록을 유지하지는 않지만 향후에 어떤 보드를보다 정확하게 평가할 수 있도록 자체적으로 조정하고 있습니다.