강화 학습이 왜 길 찾기에서 거의 사용되지 않습니까?


12

유망한 최단 경로 그래프 이론 알고리즘 A * 및 후속 개선 (예 : 계층 적 주석 A *)은 게임 개발에서 경로 찾기를위한 선택 기술입니다.

대신, RL은 게임 공간 내에서 캐릭터를 움직이는 더 자연스러운 패러다임 인 것 같습니다.

그러나 나는 강화 학습 기반 경로 찾기 엔진을 구현 한 단일 게임 개발자를 알지 못합니다. (경로 찾기에서 RL의 적용이 0이라는 것을 유추하지는 않습니다. 단지 A * 및 친구에 비해 매우 작습니다.)

이유가 무엇이든, RL이 게임 엔진의 다른 곳에서 자주 사용된다는 사실에 의해 입증되는 것처럼 개발자가 RL을 인식하지 못하기 때문이 아닙니다.

이 질문은 길 찾기에서 RL에 대한 의견을 제시하기위한 구실 이 아닙니다 . 사실, 나는 A * 등의 암묵적 선호가 있다고 가정하고있다. RL 이상은 정확하지만 그 선호도는 나에게 분명하지 않으며 그 이유에 대해 특히 궁금합니다. 특히 경로 찾기에 RL을 사용해 본 사람이라면 특히 그렇습니다.


1
"이 개발자들이 RL을 모르기 때문이 아닙니다"확실합니까? 그것은 큰 가정으로 보인다.
Tetrad

길 찾기에서 RL에 대한 링크 나 논문을 공유 하시겠습니까?
falstro

3
A * (및 관련 알고리즘)에 대한 다양한 최적 / 경계 증명을 고려할 때 RL이 경로 찾기를 위해 테이블에 무엇을 가져다 줄까요?

1
관련 (다른 질문에서 이것을 발견) : ai-blog.net/archives/000178.html
Tetrad

답변:


14

장난감 문제 외에는 정책에 대한 유용한 일반화를 얻지 못하고 보상 기능이 A * 휴리스틱처럼 의심스럽게 보일 것이기 때문에 RL을 사용하는 전망은 실제로처럼 보입니다. A *의 결과와 동일하지만 결과가 거의 좋지 않을 수 있습니다.

이것은 RL에 불공평 할 수 있으며, 그렇다면 왜 그런지 듣고 싶어 할 것입니다.하지만 실제로 그것을 나타내는 것은 보이지 않습니다.

우리 중 많은 사람들이 A *를 널리 채택하기 전에 게임에서 길 찾기가 어떤 모습 이었는지 기억하고 있으며, 그 당시 플레이어들에게 닮은 것을가하거나 열망하는 시장 결과를 겪고 싶지는 않습니다.


1
보상 기능에 대한 귀하의 진술에 +1하십시오. 그리고 아닙니다. 저는 그것이 공정한 특성이라고 생각합니다. RL은 그 일을 훌륭하게 수행 할 수 있지만 엄격한 경로 찾기가 해당 세트에있을 것으로 기대하지는 않습니다. ( 이 토론에서 모션 계획 을 의도적으로 제외하고 있습니다. RL은 이러한 종류의 문제에 성공적으로 적용되었습니다.)
Throwback1986

5

RL에 대해 많이 알지 못하면 다른 질문으로 귀하의 질문에 답변을 시도합니다.

RL을 사용하여 지점 B에서 지점 A에 도달 할 수 있는지 확인할 수 있습니까?

RL은 재현 가능한 / 일관된 / 테스트 가능한 탐색 동작을 보장 할 수 있습니까?

메모리 및 CPU 런타임 요구 사항과 A *의 차이점은 무엇입니까? 마찬가지로, 내비 메시와 비교하여 얼마나 사전 계산할 수 있습니까?

동적 충돌이있는 환경에서 RL은 어떻게 공평합니까?

스티어링 동작과 RL을 올바르게 이해하고 구현하는 것이 얼마나 더 어려운가요?

RL에 적합한 미들웨어 제공 업체가 있습니까?

아마도 그러한 질문들이 당신의 대답에 도움이 될 것입니다.


A *는 RL보다 구현 비용이 저렴하고 처리 속도가 빠르며 메모리 사용량이 적고 예측 가능합니다. 그러나 RL은보다 현실적인 결과를 생성 할 수 있습니다.
Jari Komppa

4
반대로, RL 요원은 초기 학습 단계에서 유쾌하지 않은 결과를 생성하는 경향이 있습니다. 약간의 조향 동작이있는 A *는 훨씬 더 자연스럽게 보입니다.

더 현실적인 결과는 결국 =)
Jari Komppa

RL은 본질적으로 완벽한 길 찾기 행동을 미리 계산합니다. A *보다 빠르고 간단하지만 더 많은 메모리가 필요합니다. 메모리 요구 사항을 낮추려고 할 때 복잡하고 일관되지 않습니다.
Don Reba 8

5

RL이 "보다 자연스러운 패러다임"이라는 제안에 혼란을 느낍니다. 강화 학습이 그래프 검색만큼 깨끗하고 정확하게 어디에서나 문제 영역에 매핑되는지는 알 수 없습니다. 일반적으로 상담원이 배우기를 원하지 않습니다. 이미 길을 알고 있다고 가정했습니다. 대신, 가장 직접적인 경로를 선택하여 사용하기를 원하며 그래프 검색을 통해 최적의 경로를 만들 수 있습니다. RL을 오프라인으로 사용하여 특정 목적지에 대해 주어진 노드에서 취할 수있는 최상의 방향을 계산한다면, 훨씬 더 많은 메모리 *를 필요로하고 개발자가 매우주의를 기울여야한다는 점을 제외하고는 A *와 대체로 동등하게됩니다. 훈련하는 동안 모든 노드가 적절하게 탐색되었는지 확인하십시오. 그리고 그 훈련은 그래프가 유클리드 거리 법칙을 준수한다는 것을 미리 알고 있기 때문에 피타고라스 방정식으로 이미 매우 근사한 값을 산출 할 것입니다. (물론 그래프 검색 및 / 또는 강화 학습이 사용될 수있는 모든 상황에 해당되는 것은 아닙니다.)

(메모리 문제와 관련하여 : 1000 개의 가능한 양자화 된 위치가 맵에있을 경우 1000 개의 노드에 1000 * M 개의 가장자리가 있습니다 (여기서 M은 다른 노드에서 도달 할 수있는 평균 노드 수입니다). 강화 학습이 효과를 발휘하기 위해서는 적어도 내가 생각한 방식으로 1000 * M 엣지마다 1000 개의 항목이 필요합니다. 가능한 많은 목적지입니다. 루프, 우회 또는 막 다른 골목을 피하기 위해서는 모든 비트가 합리적으로 정확해야합니다.


3

길 찾기는 비교적 "해결 된"문제이며 RL은 그렇지 않습니다.

A *를 사용하면 개발자는 휴리스틱을 빠르게 작성하고 시간이 지남에 따라 개선 할 수 있습니다. RL (여기서 RL을 언급 할 때 Q-Learning에 대해 이야기하고 있음)은 최고의 학습률과 할인 요소 (게임의 다른 측면에 소비 할 시간)를 계산하는 데 시간이 걸립니다.


1

실제로 게임 유형에 따라 다릅니다. 게임의 모든 것이 정적 인 경우 A * 검색을 사용하는 것이 더 효율적입니다. 그러나 같은 지역에 다른 사람이 움직이면 A * 검색이 실패합니다. A * 검색은 다른 플레이어가 어디로 향하고 있는지 전혀 모릅니다. 반면에 RL은 다른 플레이어의 행동을 모델링하고 다른 플레이어의 움직임을 고려하는 더 나은 길을 찾을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.