«reinforcement-learning» 태그된 질문

7
시각적 입력을 사용하여 디아블로 2를 재생하도록 인공 신경망을 훈련시키는 방법은 무엇입니까?
현재 ANN에서 비디오 게임을하려고하는데 멋진 커뮤니티의 도움을 받기를 원했습니다. 나는 디아블로 2에 정착했다. 게임 플레이는 실시간으로 그리고 아이소 메트릭 관점에서 볼 때, 플레이어는 카메라가 중앙에있는 단일 아바타를 제어한다. 일을 구체적으로 만들기 위해, 임무는 몬스터를 죽이면 체력이 0으로 떨어지지 않고 캐릭터 x 경험치를 얻는 것입니다. 게임 플레이의 예는 다음과 같습니다. 이제는 …

4
가치 반복과 정책 반복의 차이점은 무엇입니까?
강화 학습에서 정책 반복 과 가치 반복 의 차이점은 무엇 입니까? 내가 아는 한 가치 반복에서는 Bellman 방정식을 사용하여 최적의 정책을 해결하는 반면, 정책 반복에서는 무작위로 정책 π를 선택하고 해당 정책의 보상을 찾습니다. 내 의심은 PI에서 임의의 정책 π를 선택하는 경우 여러 임의의 정책을 선택하더라도 어떻게 최적의 정책이 보장됩니까?

6
Q-learning과 SARSA의 차이점은 무엇입니까?
SARSA 는 정책에 따르고 Q 학습 은 정책에서 벗어난 것을 알고 있지만 공식을 보면이 두 알고리즘의 차이점을 확인하기가 어렵습니다. Reinforcement Learning : An Introduction (by Sutton and Barto) 책에 따르면 . SARSA 알고리즘에서 정책이 주어지면 해당 작업-값 함수 Q (상태 s 및 작업 a, 시간 단계 t에서), 즉 Q (s …

1
그라디언트 정책 파생 이해
출처 리소스 Andrej Karpathy 블로그 에서 Policy Gradient의 매우 간단한 예를 재현하려고합니다 . 이 articale에서는 무게 및 Softmax 활성화 목록이있는 CartPole 및 Policy Gradient의 예제를 찾을 수 있습니다. 다음은 완벽하게 작동하는 CartPole 정책 그라디언트의 재현 된 매우 간단한 예입니다 . import gym import numpy as np import matplotlib.pyplot as plt …

1
TypeError : len은 기호 텐서에 대해 잘 정의되어 있지 않습니다. (activation_3 / Identity : 0) 모양 정보는`len (x)`대신`x.shape`를 호출하십시오.
openAI 체육관의 한 게임에서 DQL 모델을 구현하려고합니다. 그러나 다음과 같은 오류가 발생합니다. TypeError : len은 기호 텐서에 대해 잘 정의되어 있지 않습니다. (activation_3 / Identity : 0) 모양 정보 x.shape보다는 전화 len(x)하십시오. 체육관 환경 만들기 : ENV_NAME = 'CartPole-v0' env = gym.make(ENV_NAME) np.random.seed(123) env.seed(123) nb_actions = env.action_space.n 내 모델은 다음과 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.