종이는 여기에 있습니다 .
롤아웃 정책 ...은 점진적으로 계산 된 로컬 패턴 기반 기능을 기반으로하는 선형 softmax 정책입니다 ...
롤아웃 정책이 무엇인지, 그리고 정책 선택이 이동을 선택하는 정책 네트워크와 어떤 관련이 있는지 이해하지 못합니다. 더 간단한 설명이 있습니까?
이 신문은
—
월페이퍼
@xeon 나는 그것을 도울 수 없다. 논문에 대한 모든 권한이 있지만 여기에 업로드 할 수 없습니다 (저작권법). 다른 사람이 사본을 가지고 있다면 어쩌면 구글 주위에?
—
HelloWorld