OP가 AlphaGo와 알파-베타를 혼동하고 있다고 생각합니다. 알파-베타에서는 잘라내기를 돕기 위해 정책 네트워크를 사용해야하지만 여기서는 그렇지 않습니다. 알고리즘이 몬테카를로 트리 검색 (MCTS)에 의존하기 때문에 다시 정리하지 않습니다.
내 대답이 너무 길다고 생각되는 사람은 요약 섹션으로 건너 뛸 수 있습니다. 여기서 두 네트워크가 중복되지 않는 이유를 설명합니다.
다음 예에서는 아이디어를 이해하기 쉽게 단순화 할 것입니다.
예:
두 가지 법적 움직임이있는 위치에 있다고 상상해보십시오. 첫 번째 움직임은 당신에게 치명적이지만, 두 번째 움직임은 당신에게 승리 이점을 제공합니다.
- 첫 번째 움직임 : 당신을위한 강제 손실
- 두 번째 움직임 : 당신을 위해 강제 승리
평가 네트워크
Google이 제공하는 평가 네트워크가 완벽하다고 가정 해 봅시다. 이 예제에서는 모든 리프 위치를 완벽하게 평가할 수 있습니다. 이 예에서는 가치 네트워크를 변경하지 않습니다.
예제를 단순화하기 위해 가치 네트워크가 제공한다고 가정 해 봅시다.
- -당신을 위해 손실 잎 위치에 -1000
- 당신에게이기는 잎 위치에 +1000
정책 네트워크
Google이 두 개의 정책 네트워크를 제공한다고 가정 해 보겠습니다. 우리의 입장에서 생성 된 확률은 다음과 같습니다.
- 정책 1 : 이동 1의 경우 0.9, 이동 2의 경우 0.1
- 정책 2 : 이동 1의 경우 0.2, 이동 2의 경우 0.8
첫 번째 정책 네트워크는이 예에 대해 잘못된 사전 확률을 제공합니다 . 이동 1에 대해 0.9를 주며 이는지는 이동입니다. 구글조차 완벽한 정책 네트워크를 훈련시킬 수는 없기 때문에 괜찮습니다.
첫 번째 정책 네트워크로 재생
AlphaGo는 Monte-Carlo로 시뮬레이션을 생성해야하며 이동 1 또는 2를 선택해야합니다. 이제 AlphaGo는 균일하게 분포 된 랜덤 변수를 그리고 다음을 선택합니다 :
- 난수가 <= 0.9 인 경우 1을 이동하십시오.
- 난수가 0.9보다 크면 2만큼 이동
따라서 AlphaGo는 가장 첫 번째 시뮬레이션에서 시뮬레이션으로지는 이동을 훨씬 더 많이 선택합니다. 첫 번째 시뮬레이션에서는 값 네트워크를 사용하여 시뮬레이션 점수를 얻습니다. 논문에서 그것은 :
이 시뮬레이션은 손실로 이어지기 때문에이 값은 -1000입니다.
이제 AlphaGo는 두 번째 시뮬레이션을 생성해야합니다. 다시 말하지만, 첫 번째 움직임은 훨씬 더 많이 선택 될 것입니다. 그러나 결국 두 번째 조치는 다음과 같은 이유로 선택됩니다.
- 두 번째 움직임에 대한 우리의 사전 확률은 0이 아닌 0.1입니다.
- AlphaGo는 많이 탐색되지 않은 움직임을 시도하도록 권장됩니다. 논문에서 이것은 다음 방정식에 의해 수행됩니다.
주 N
이동의 수는 이동 검색과는 분모에 있습니다. 첫 번째 움직임을 검색할수록 u
기능이 작아집니다 . 따라서 AlphaGo가 실제로 다음 방정식으로 이동을 선택하기 때문에 두 번째 이동을 선택할 확률이 향상됩니다.
이것이 핵심 방정식입니다. 주의 깊게 살펴보십시오.
P
사전 확률에 대한 용어 가 있습니다 (정책 네트워크에서 제공).
Q
평가 점수에 대한 용어 가 있습니다 (가치 네트워크에서 제공).
이제 우리는 두 번째 움직임이 결국 선택 될 것임을 알고 있습니다. 그것이 일어날 때, 가치 네트워크는 +1000을 제공합니다. 이 증가 하여 나중에 시뮬레이션에서 Q
두 번째 이동이 훨씬 더 많이 선택 될 수 있습니다.
충분한 시뮬레이션이 제공되면 시뮬레이션을 위해 두 번째 이동이 선택된 횟수는 첫 번째 이동이 선택된 횟수보다 많아야합니다.
마지막으로, AlphaGo가 결정한 움직임은 (종이에서 인용) :
검색이 완료되면 알고리즘은 루트 위치에서 가장 많이 방문한 이동을 선택합니다.
두 번째 정책 네트워크로 재생
우리의 두 번째 정책 네트워크는 정책 네트워크에 의해 주어진 사전 확률이 처음에 정확하기 때문에 이동 2를 선택하는 데 적은 반복이 필요합니다.
비고
여기에있는 모든 것은 Bayesian
분석 과 매우 유사합니다 . 우리는 정책 네트워크에 의해 주어진 사전 확률로 시작한 다음, 확률 배제 (가치 네트워크에 의해 주어진)를 이동시키기 위해 데이터를 생성한다.
요약
- 정책 네트워크는 Monte-Carlo 검색이 어떤 움직임을 선택해야하는지 안내하기 위해 사전 확률을 생성하는 데 사용됩니다.
- 가치 네트워크는 정책 네트워크를 검증하기 위해 데이터를 생성하는 데 사용됩니다. 정책 네트워크가 나쁘면 AlphaGo는 수렴하기 위해 더 많은 컴퓨팅 리소스가 필요합니다.
- 베이지안 분석처럼 생각할 수 있습니다