DeepMind의 AlphaGo Zero 및 AlphaZero 논문에서는 Monte Carlo Tree Search의 루트 노드 (보드 상태)의 사전 동작 확률에 Dirichlet 노이즈를 추가하는 방법에 대해 설명합니다 .
루트 노드 의 사전 확률에 Dirichlet 노이즈를 추가하여 추가 탐색을 수행합니다 . 특히 . 여기서 및 ; 이 소음으로 인해 모든 이동이 시도 될 수 있지만 검색시 여전히 잘못된 이동이 우선 할 수 있습니다.
(알파 고 제로)
과:
Dirichlet noise 가 루트 노드의 이전 확률에 추가되었습니다. 이것은 전형적인 위치에서의 대략적인 법적 움직임의 수에 반비례하여체스, 쇼기 및 바둑의 경우 각각 입니다.
(알파 제로)
내가 이해하지 못하는 두 가지 :
P(s, a)
인 차원 벡터. 가요 와 디리클레 분포 속기 값 파라미터, 각 ?다항식 분포 이전에 켤레로 Dirichlet을 발견했습니다. 여기에서 왜 골랐나요?
문맥 상, P(s, a)
주어진 상태 / 조치에 대한 PUCT (다항식 상한 신뢰 트리, 상한 신뢰 한계의 변형) 계산의 한 구성 요소 일뿐입니다. MCTS 동안 형제들 사이에서 주어진 행동이 몇 번이나 선택되었는지에 대한 상수와 메트릭으로 스케일링되며 추정 된 행동 값에 추가됩니다 Q(s, a)
.
PUCT(s, a) = Q(s, a) + U(s, a)
.- .