AlphaGo의 논문에서 롤아웃 정책은 무엇입니까?


11

종이는 여기에 있습니다 .

롤아웃 정책 ...은 점진적으로 계산 된 로컬 패턴 기반 기능을 기반으로하는 선형 softmax 정책입니다 ...

롤아웃 정책이 무엇인지, 그리고 정책 선택이 이동을 선택하는 정책 네트워크와 어떤 관련이 있는지 이해하지 못합니다. 더 간단한 설명이 있습니까?


이 신문은
월페이퍼

@xeon 나는 그것을 도울 수 없다. 논문에 대한 모든 권한이 있지만 여기에 업로드 할 수 없습니다 (저작권법). 다른 사람이 사본을 가지고 있다면 어쩌면 구글 주위에?
HelloWorld

답변:


11

p(as)asp

롤아웃 정책 (백개 먼에서 "롤아웃"이라는 용어를 빌린 것으로 생각 함)이 선형 소프트 맥스 함수라고 말하면 로지스틱 회귀 분석에 사용되는 시그 모이 드 함수의 일반화를 의미합니다. 이 함수는 형태를 취합니다

eβiTxj=1keβjTx

xβiai

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.