문제 공간이 너무 클 때 AI의 행동을 배우는 방법


10

나는 실험과 모범을 통해 가장 잘 배웁니다. 나는 신경망에 대해 배우고 있으며 (내 생각에는) 분류와 회귀에 대한 이해력이 뛰어나고 감독되고 감독되지 않은 학습이지만, 나는 조용히 파악할 수없는 무언가를 발견했습니다.

복잡한 게임을하도록 AI를 훈련시키고 싶었다면; RTS와 같은 것을 생각하고 있습니다 (예 : Age of Empires, Empire Earth 등). 이러한 유형의 게임에는 일반적으로 서로 다른 기능을 가진 플레이어 (유닛, 건물)에 의해 제어되는 여러 엔티티가 있습니다. 인공 지능이 분류 (예를 들어, 그 단위를 선택하고 그 행동을 선택)하는 것이 문제인 것처럼 보이지만 단위의 수는 변수이기 때문에 이런 식으로 분류 문제를 어떻게 처리 하는가?

내가 생각할 수있는 유일한 것은 다른 단계를 수행하는 여러 네트워크 (전체 전략,이 유형의 단위를 제어하기위한 것, 건물 유형을위한 것 등)입니다. 그러나 이것은 내가 문제를 복잡하게 만드는 것처럼 보입니다.

복잡한 게임을 배우는 기계 학습 / 신경망의 좋은 예가 있습니까 (특히 RTS는 아니지만 마리오가 더 복잡합니다 )?



답변으로 유용 할 수 있습니다 : ijcai.org/papers07/Papers/IJCAI07-168.pdf 및 그에 대한 검토 : aigamedev.com/open/review/transfer-learning-rts
Neil Slater

답변:


4

그것은 좋은 질문이며 전 세계의 많은 과학자들도 같은 질문을합니다. 먼저 Age of Empires와 같은 게임은 실제로 큰 솔루션 공간을 가진 것으로 간주되지 않으므로 할 수있는 일이 많지 않습니다. Mario Bros와 같은 게임에서도 마찬가지입니다. Atari 게임과 같은 쉬운 게임에서 배우는 문제는 Google이 인수 한 DeepMind (여기서는 논문 )에 의해 해결되었습니다 . 그들은 딥 러닝과 함께 강화 학습의 구현을 사용했습니다.

당신의 질문으로 돌아갑니다. 정말로 큰 문제는 인간이 매일 내리는 결정의 양을 모방하는 방법입니다. 일어나고, 아침 식사를하고, 샤워를하고, 집을 떠나십시오 ...이 모든 행동에는 정말 높은 수준의 지능과 발달하기위한 많은 행동이 필요합니다.

이 문제에 대해 많은 사람들이 일하고 있습니다. 저는 그들 중 하나입니다. 나는 해결책을 모른다. 그러나 내가보고있는 방식으로 당신에게 말할 수있다. 나는 Marvin Minsky의 이론을 따르고 AI의 아버지 중 하나입니다. 이 책, 감정 기계는 문제에 대한 아주 좋은 견해를 알려줍니다. 그는 인간 행동을 모방하는 기계를 만드는 방법은 인공 지능에 대한 통합 된 컴팩트 이론을 구성하는 것이 아니라고 제안했다. 반대로, 그는 우리의 뇌에는 서로 다른 목표를 만족시키기 위해 서로 경쟁하는 자원이 포함되어 있다고 주장합니다. 그들은이 방법으로 생각했다 .


1

좋은 질문입니다. 이것은 복잡한 문제이며 사용하는 접근 방식은 문제가 얼마나 복잡한 지에 따라 다릅니다. 우리가 해결하려고하는 모든 문제는 그와 관련하여 어느 정도의 복잡성을 갖게되며 구어체 적으로 "상호 작용하는 것의 수 또는 고려해야 할 것"으로 정의됩니다. 지도 및 비지도 학습에서 고려해야 할 사항의 수를 정확하게 지정합니다.

예를 들어, 다중 선형 회귀 분석에서는 학습 알고리즘에 모델을 피팅 할 때 고려해야 할 피쳐 수 (훈련 세트의 열 수)를 알려줍니다. 같은 상황이 비지도 학습에도 적용됩니다. 명시적인 수의 기능을 갖춘 잘 정의 된 교육 세트 (이 경우 레이블 없음)가 사용됩니다.

"고려해야 할 것"의 수를 정확하게 지정할 수 없기 때문에 직면하고있는 것은 분류 또는 회귀에 적합하지 않은 상황입니다. 당신이 말했듯이, 문제 공간이 너무 큽니다. 이것을 생각하는 또 다른 방법은 모델을 배우기 위해 필요한 훈련 세트에 관한 것입니다. 훈련 세트가 어떻게 보이는지 상상하기가 얼마나 어렵습니까? 당신의 경우 어려운. 내 세트의 열에 정확히 무엇이 포함됩니까?

그렇기 때문에 자율 주행 차, Atari 및 AlphaGo와 같은 응용 프로그램은 분류 또는 회귀를 사용하지 않습니다. 훈련 세트가 어떻게 보이는지 아는 것은 불가능합니다. 시도해 볼 수는 있지만 모델이 확실하게 강력한 예측을하지 못합니다 (이 경우에는 이동). 도로 상황의 모델을 구축하기 위해 얼마나 많은 것들을 고려해야합니까?

이것이 세 번째 유형의 기계 학습, 강화 학습입니다. 미리 지정된 훈련 세트를 사용하는 대신 시행 착오를 사용합니다. 지속적으로 환경을 파고 들면서 장기적으로 작동하는 정책을 배울 수 있습니다.

따라서 훈련 세트를 정의 할 수있는 작은 문제 공간의 경우 감독 및 감독되지 않은 기계 학습을 사용합니다. 훈련 세트를 정의하기 어려운 더 큰 문제 공간에는 강화 학습을 사용합니다. 물론 위의 모든 접근 방식을 흥미로운 조합으로 만들 수도 있지만 여전히 복잡합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.