Monte Carlo Tree Search : 어떤 종류의 움직임을 쉽게 찾을 수 있고 어떤 종류의 문제가 발생합니까?


10

MCTS가 얼마나 잘 수행 할 수 있는지에 대한 시나리오를 시작하려고합니다. 아직 검색 트리에 추가되지 않은 이동이 있다고 가정 해 봅시다. 일부 레이어 / 움직임이 너무 큽니다. 그러나 우리가이 움직임을하면 게임은 기본적으로 이깁니다. 그러나 주어진 게임 상태에서 대신 취할 수있는 모든 움직임이 매우 나쁘다고 가정합시다 . 논쟁을 위해 1000 개의 가능한 움직임이 있으며 그중 하나만 훌륭하지만 (아주 훌륭함) 나머지는 매우 나쁘다고 가정 해 봅시다. 이 문제를 인식하지 못할 및 MCTS하지 않을까요 하지이 이동으로 검색 트리를 확장하고이 하위 트리를 매우 심하게 평가합니까? 나는 MCTS가 결국 minimax로 수렴한다는 것을 알고 있습니다 (그리고 충분한 메모리가 있으면 전체 트리를 만들 것입니다). 그런 다음 나쁜 가능성이 많더라도 이동이 양호하다는 것을 알아야합니다. 그러나 실제로 이것은 이것이 신뢰할 수있는 것이 아닙니다. 어쩌면 누군가 내 의견이 올바른지 말해 줄 수 있습니다.

이 특별한 시나리오 외에도 MCTS가 제대로 수행하지 못하는 다른 시나리오가 있는지 알고 싶습니다.


MCTS는 확률 적입니다. 따라서 단서가 필요하거나 아무것도 찾지 못합니다. 예를 들면 : 건초 더미에서 바늘을 찾으십시오. 이것을 시도하면 실패합니다. 좀 더 현실적인 예를 생각해 내고 그 예에 가장 적합한 전략이 무엇인지 물어 보면 좋을 것입니다. 이것은 건초 더미에서 바늘을 더 잘 찾는 방법에 대한 힌트를 줄 수 있습니다.
Trilarion

답변:


2

이동 여부와 검색 속도는 몇 가지 사항에 따라 다릅니다. 올바르게 이해하면 "큰 승리"로 이어지는 많은 "나쁜"움직임이 있으며 MCTS 알고리즘이 더 큰 유망한 선택을하기 때문에 "큰 승리"로 이동하지 않을까 걱정됩니다. 나무 위로 더 이동합니다. 고려해야 할 사항 (Wikipedia MCTS 기사 참조 ) :

  • 플레이 아웃을 할 때는 몇 번의 추가 이동 또는 게임 종료까지만 게임을 할 수 있습니다. 몇 번만 더 진행하면 더 빠르지 만 극단적 인 경우에는 최선의 선택이 아니라고 설명했습니다. 그러한 시나리오의 존재에 대해 알고 있다면, 플레이 아웃에서 게임을 끝까지하십시오.

  • 플레이 아웃을 수행 할 때 무작위로 또는 문제에 맞는 간단하고 욕심 많은 (빠른) 휴리스틱을 기반으로 동작 / 동작을 선택할 수 있습니다. 게임 / 문제에 대한 이러한 시나리오를 찾거나 고려하기 위해 욕심 많은 휴리스틱이 있습니까? 그렇다면 구현하십시오. 그런 다음 "무거운 플레이 아웃"이라고합니다. 무작위 이동을 사용하여 결과를 플레이 아웃과 비교합니다.

  • UCT를 사용하여 작업을 선택하면 (상위 신뢰 범위가 트리에 적용됨) 식의 첫 부분이 악용을 담당합니다. 평균 승률이 높은 동작이 선호됩니다. 두 번째 부분은 탐사에 해당합니다. 탐색 매개 변수가 충분히 높게 설정되어 있으면 (문제에 대해 실험적으로 테스트) 시뮬레이션이 적은 움직임이 선호됩니다. 높은 탐사는 착취를 해치면서 황금의 움직임을 찾는 또 다른 방법이 될 것입니다 (탐사 / 탐험 딜레마에 대해 읽어보십시오).

현실적인 게임이나 문제 시나리오를 설명하면 적절한 전략을 세우는 데 도움이 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.