5
강화 학습에서 Q 기능은 무엇이며 V 기능은 무엇입니까?
저 보인다 기능을 용이하게 나타낼 수있다 함수 따라서 함수 나에게 불필요한 것으로 보인다. 그러나, 나는 강화 학습에 익숙하지 않아서 뭔가 잘못되었다고 생각합니다.VVVQQQVVV 정의 Q 및 V 학습은 Markov 의사 결정 프로세스와 관련이 있습니다. MDP는 5 튜플 와(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSS 는 일련의 상태입니다 (일반적으로 유한) AAA 는 일련의 …