다음과 같이 문제를 해결할 수 있습니다.
< x0, y0, x1, y1>( x0− y0)2+ ( x1− y1)2−−−−−−−−−−−−−−−−−−√
< x0, y0, x1, y1>
물론 두 개의 분리 된 신경망에서이 작업을 수행 할 이유가 없으므로 이미지를 입력으로, 거리를 출력으로하는 모델을 두 개의 end-to-end 모델과 결합 할 수 있습니다.
이 모델은 레이블이 지정된 데이터에 대해 학습해야하므로 데이터를 직접 생성하거나 이미지에 레이블을 지정해야합니다.
그러나 덜 감독 된 방식으로 거리를 폐쇄한다는 개념을 배우고 싶다면 강화 학습을 사용해야합니다. 이 경우 거리를 줄이기 위해 에이전트에 인센티브를 제공하는 환경을 설정해야합니다. 행동이 거리를 줄이면 보상을 얻는 것만 큼 간단 할 수 있습니다.
다른 접근법은 향후 보상을 사용하여 에이전트에게 인센티브를 제공하는 것입니다. 즉, 보상은 다음 구제 조치 상태의 결과에서 오는 것이 아니라 다음 가능한 상태 및 그 이후의 상태로부터의 기여도 있습니다. 이것은 Deep Q-Learning의 아이디어이며, 이 노트에서 간단한 예제 (설명한 것과 매우 유사한)를 구현합니다 .
이제 질문은 :이 구현이 성공의 길을 따라갈 때까지 무작위로 움직이는 것 이외의 다른 일을 했습니까?
귀하의 예에서, 당신은 에이전트가 목표에 도달했을 때 보상하는 것에 대해 이야기합니다. 그러나 내가 설명 한 바에 따르면, 목표에 더 가까이 다가 가면 (Q-Function을 통해 또는 환경에서 직접) 보상을 얻습니다. 거리에 대한 추상적 인 개념을 학습함으로써 그렇게 할 수 있습니다 (이것은 감독 버전에서 설명 할 수 있습니다).
인간이 이것을 알게되면, 같은 이유가 있습니다 : 인간은 미래의 보상 감각을 통해 그 방향으로 나아가는 것에 대한 보상을 얻고 있습니다.
충분한 훈련과 데이터가 주어지면 강화 학습 이이 개념을 쉽게 배울 수 있다고 말하고 싶습니다. 보드에 다른 보상이 존재하는 한 (예를 들어, "보드의 엔트로피를 최소화하고 보상을 얻으려고 노력하는 중"), 당신이 원하는 것이 무엇인지 생각해야합니다. 요원이 거리를 최소화하거나 보상을 극대화 하시겠습니까? 일반적으로 두 가지를 모두 수행 할 수는 없습니다. 둘 사이의 균형을 찾고 있다면 거리를 고려하여 보상을 재정의하는 것입니다.