강화 학습 알고리즘을 사용하여 로봇을 따르는 라인을 프로그래밍하는 것을 고려하고 있습니다. 내가 숙고하고있는 질문은 알고리즘이 임의의 경로를 탐색하는 방법을 배우게하는 방법입니다.
강화 학습을 위해 Sutton & Barto Book 을 따랐을 때 , 나는 자동차 요원이 트랙에서 떨어지지 않고 속도를 조절하지 않는 것을 배우는 경마장과 관련된 운동 문제를 해결했습니다. 그러나이 운동 문제로 인해 요원은 훈련 된 트랙을 탐색하는 방법을 알게되었습니다.
로봇이 임의의 경로를 탐색하도록하는 것이 강화 학습의 범위에 있습니까? 에이전트는 않습니다 절대적으로 경주 회로 또는 경로의지도를 가지고 있나요? 상태 공간에 어떤 매개 변수를 사용할 수 있습니까?