게임 이외의 강화 학습 응용 프로그램이 있습니까?


13

게임 이외의 응용 프로그램에서 강화 학습을 가르치는 방법이 있습니까?

인터넷에서 찾을 수있는 유일한 예는 게임 에이전트입니다. VNC가 강화 네트워크를 통해 게임에 대한 입력을 제어한다는 것을 이해합니다. CAD 소프트웨어로 이것을 설정할 수 있습니까?


3
예, 가능하지만 실제 문제는 다른 알고리즘보다 효율적인지 여부입니다. 특정 목표가 있다면 그것을 생각하고 그것을 게임으로 모델링 할 수 있습니다 (심지어 인생은 게임입니다). 실제로, 많은 성공적인 AI는 하나 이상의 기술을 이용합니다. 이 하나를 살펴 보자 : datascience.stackexchange.com/questions/11126/...
TasosGlrs

2
AlphaGo에 대한 요점은 특정 유형의 게임 ( 사소 하지 않고 기회가없고 완벽한 정보)이 특히 AI에 탁월한 입증 근거를 제공한다는 점입니다. 이러한 게임은 매우 간단한 매개 변수를 갖지만 복잡성은 자연과 유사하기 때문입니다. 특정 관점에서 게임은 추상적이고 전략적인 사고를 가르치기 때문에 가장 유용한 종류의 인공물입니다. 게임의 중요성을 이해하려면 게임 이론이 컴퓨터 과학에 미치는 영향을 살펴보십시오 .
DukeZhou

NDA 때문일 수 있습니다. 최고의 학습 앱은 최고의 셀 타워 소프트웨어, 최고의 음성 인식 또는 최고의 온라인 쇼핑 센터와 같이 독점적입니다. 그것은 일반적으로 공학입니다.
FauChristian 2016 년

권리. 모든 것이 게임 이론이라면 세계는 게임이됩니다.
FelicityC

답변:


2

강화 학습의 멋진 예 중 하나는 자율 비행 헬리콥터입니다. 최근 Andrew Ng와 다른 사람들이 한 것들을 배울 기회가있었습니다. 여기 연구 논문이 있습니다. 다른 유사한 논문도 있습니다. 당신이 더 배우고 싶다면 당신은 그들을 구글 할 수 있습니다.

이 유튜브 비디오 에서 실제로 볼 수 있습니다 .

여기 재정적으로 완전히 다른 응용 프로그램 이 있습니다.


2

게임 환경은 종종 효율적으로 코딩 될 수 있고 환경과 에이전트를 포함 할 수있는 단일 컴퓨터에서 빠르게 실행될 수 있기 때문에 강화 학습 문헌에 많은 게임 예제가 표시됩니다. 주사위 놀이, 체커, 체스와 같은 고전 게임의 경우 결과를 비교할 수있는 인간 전문가가 있습니다. MNIST 필기 숫자가 감독 학습 방식을 비교하는 데 사용되는 것과 같이 특정 게임 또는 단순화 된 게임과 유사한 환경이 일반적으로 다른 접근법을 비교하는 데 사용됩니다.

게임 이외의 응용 프로그램에서 강화 학습을 가르치는 방법이 있습니까?

예. 비공식적으로, 상태와 목표에 영향을 미치는 보상 가치를 알 수있는 환경 내에서 행동하는 에이전트로서 문제를 구성 할 수있을 때마다 강화 학습 접근법을 적용 할 수 있습니다. 보다 공식적으로 강화 학습 이론은 Markov 의사 결정 프로세스 에 대한 솔루션을 기반으로 하므로 문제 설명을 MDP에 맞추면 Q-learning, SARSA, REINFORCE와 같은 RL에 사용되는 다양한 기술을 적용 할 수 있습니다. 이론에 대한 이러한 적합은 결과 시스템이 작동하기 위해 완벽 할 필요는 없습니다. 예를 들어, 알려지지 않았거나 불완전하게 관찰 된 상태를 에이전트에 효과적으로 무작위로 처리하고 확률 적 환경의이 부분을 고려할 수 있습니다.

레크레이션 게임 이외의 강화 학습에 사용 가능한 예는 다음과 같습니다.

  • 팬케이크 뒤집기 학습 및 기타 예제와 같은 전동 로봇을위한 제어 로직 . 여기서 환경 측정은 로봇의 물리적 센서에 의해 이루어집니다. 목표 달성에 대한 보상은 주어 지지만 매끄러움, 에너지의 경제적 인 사용 등을 위해 조정될 수도 있습니다. 에이전트는 모터 토크 또는 릴레이 위치와 같은 저수준 행동을 선택합니다. 이론적으로 상위 레벨의 담당자가 하위 레벨의 목표를 선택하는 중첩 된 에이전트가있을 수 있습니다. 예를 들어 로봇은 다른 위치로 이동해야하는 세 가지 작업 중 하나를 수행하는 단계를 높은 수준에서 결정할 수 있습니다. 로봇을 선택한 목표로 이동시키기 위해 모터를 제어하는 ​​방법에 대한 결정.

  • 자율 주행 차. 도로 표시, 보행자 등의 센서 해석에 중점을두고 있지만 가속기, 브레이크 및 조향을 선택하려면 제어 시스템이 필요합니다.

  • 자동화 된 금융 거래. 어쩌면 일부에게는 게임이 될 수 있으며 실제 결과는 분명합니다. 보상 신호는 간단하지만 RL은 장기 또는 단기 이득을 선호하도록 조정할 수 있습니다.

CAD 소프트웨어로 이것을 설정할 수 있습니까?

이론적으로는 그렇습니다. 그러나 실제로 이것을 할 수있는 것이 무엇인지 모르겠습니다. 또한 가상 마우스를 제공하고 무언가를 그리는 작업을 설정하기 전에 에이전트에 관찰 할 수있는 보상 값으로 코딩한다는 목표를 명심해야합니다. 컴퓨터 게임에는 점수 시스템으로 내장 된 보상 체계가 포함되어 있으며, 자주 피드백을 제공하므로 상담원은 좋은 결정과 나쁜 결정에 대한 지식을 빠르게 얻을 수 있습니다. 이 스코어링 구성 요소를 CAD 기반 시스템의 목표를 나타내는 것으로 대체해야합니다.

다양한 물리 엔진 또는 유한 요소 분석과 같은 시뮬레이션 기능이있는 CAD 도구를 사용하면 시뮬레이션 된 물리적 측정을 기반으로 설계에 점수를 매길 수 있지만 CAD에는 적합한 내장 기능이 없습니다. 다른 가능성으로는 CAD / CAM 시스템이 부분 또는 완성 된 설계에 제공 할 수있는 모든 측정 항목에 대한 변형률, 비 폐기물 사용에 대한 분석이 포함됩니다. 까다로운 부분은 디자인을 목표 또는 목적으로 제한하고 보상을 받도록 설계하거나 환경에 제약 조건을 구축하는 것입니다. RL 에이전트에게 CAD 프로세스에 대한 무제한 제어를 제공하고 최저 변형률에 대한 보상은 작은 큐브와 같이 매우 흥미롭지 않은 결과를 초래할 수 있습니다.


다양한 적절한 것들 : 최대의 시각적 선명도를위한 자동 디멘션, 변형이있는 부품 (FEA없이)을위한 간섭 검색, CAM 출력 최적화, 대략적인 z- 깊이 정보를 사용한 렌더링 렌더링 등
FauChristian

@FauChristian : 모든 게임이 단순히 게임 점수만큼 보상 신호로 제공 될 수 있는지 잘 모르겠습니다. 예를 들어 변형을 줄 이도록 설계를 최적화한다는 것은 설계에 목적 이 있음을 의미합니다. 또한 그 목적을 추적하기 위해 구속 조건 / 규칙을 추가해야하며 인체 공학적 분석이 없다면 힘들 수 있습니다. 그러나 주석은 언급 할 수있는 몇 가지 사항을 추가하고 답변에 추가합니다.
Neil Slater

예. 진실. 노력하겠습니다. 내가해야 할 의견을 변명 해주세요. 위의 각 경우에 나의 목표는 기계 디자이너의 관심사를 반복을 안내 할 수있는 단일 웰빙 신호로 집계하는 것입니다. NN의 여러 장기가 각기 다른 집계로 공급 될 수 있다는 사실을 염두에 두어야합니다. 그러나 간단하게하기 위해 각 사례를 스칼라로 집계합니다. CAD의 대부분의 경우 집계 된 값의 표면에 여러 중요한 점이 있기 때문에 대부분의 경우 확률 적 요소가 필요합니다.
FauChristian

자동 치수 측정 — w = sqrt (Σ min (s_clear, s_nice)) + k n_jumps, ... 여기서 ... w는 도면의 치수 상태의 품질 집계로, 표준화 된 피드백 신호를 도출 할 수 있습니다. s_clear 는 점프 선을 제외한 치수선과 가장 가까운 다른 선 사이의 거리이고, s_nice는 치수를 그리는 도면 유형에 대한 선 사이의 거리가 좋은 거리를 나타내는 메타 매개 변수이며, k는 상수이며, n_jumps는 점프 선의 개수입니다 ( 선은 교차하지만 두 선 중 하나는 다른 선 뒤에 뛰고 있음을 나타내는 간격이 있습니다.
FauChristian

간섭 검색 — w = n, ... 여기서 ... w는 간섭 검색의 품질 집합이며 n은 반복 추측을 피드의 동적 시뮬레이션에 공급 한 후 발견 된 간섭의 수입니다. 이것은 정확한 간섭이 더 높을수록 점수가 높다는 점에서 게임과 같습니다.
FauChristian

1

많은 사람들이 강화 학습을 실제 웹, 모바일 및 워크 스테이션 응용 프로그램에 도입 할 수있는 방법이 있습니다.

군사 조직, 영화 산업, 소프트웨어 중심 기업이하고 있으며, Fortune 500 대 기업과 소기업 모두를 위해 해냈습니다. FaceBook의 안면 인식 로봇에서 Google Translate, USPS 우편 번호 인식 시스템, 자율 비행 및 교통 제어 시스템에 이르기까지 모든 종류의 시스템 구성 요소에는 적응 형 학습 구성 요소가 있습니다. CAD (Computer Aided Design Software)는 확실히 실행 가능한 대상입니다.

강화의 기초

이벤트를 설명하는 일련의 벡터를 고려하십시오. 그것들이 두 개의 하위 시리즈 A와 B로 나뉘어져 있다고 상상해보십시오. 신경망 (인공 또는 생물학적)은 A를 사용하여 훈련 될 수 있습니다.

훈련은 감독 될 수 있는데, 이는 벡터의 차원 중 하나가 레이블로 간주되므로 최적 예측을위한 종속 변수로 간주됩니다. 그런 다음 다른 차원은 사실 또는 입력 신호가되므로 예측에 사용할 독립 변수가됩니다. 기능 추출을 사용하여 교육을 감독 할 수 없습니다.

어느 쪽이든, B 이전에 A가 제공되고 B가 도착하기 전에 생산 (실제 사용)에서 수행 될 것으로 예상되는 경우, B의 나중에 도착이 선택을 제공합니다.

  1. A를 사용한 트레이닝 중에 수행 한 가중치 및 메타 매개 변수 조정을 지우고 연결된 일련의 A 및 B를 사용하여 트레이닝을 다시 실행하십시오.
  2. B로 훈련을 계속하십시오.이 경우 네트워크는 A로 편중되고 결과는 B로 훈련 한 다음 A로 얻은 결과와 다릅니다.
  3. 위의 1 번 선택에 필요한 자원 소비를 피하면서 A로 먼저 훈련을받는 편견을 제한하는 방법을 찾으십시오.

선택 # 3은 선택 # 1 및 # 2의 이점을 포함하므로 많은 경우에 가장 적합한 선택입니다. 수학적으로 # 3은 어떤 식으로 시리즈 A에서 배운 것을 선점함으로써 촉진됩니다. 새로운 경험이 그렇게 할 필요가 있음을 나타 내기 때문에 신경 순 중량과 메타 매개 변수 조정은 수정에 민감해야합니다. 하나의 순진한 접근법은 물리, 화학 및 사회 과학의 많은 현상에서 자연적 붕괴를 모델링하는 역 지수 함수를 수학적으로 공식화 할 수 있습니다.

P = e -nt (여기서 P 는 사실이 여전히 유효 할 확률이고, n 은 과거 학습 된 정보의 붕괴율이며, t 는 타임 스탬프, 서브 시퀀스 (일괄 처리) 번호와 같은 일부 진행률 측정치입니다. 팩트 시퀀스 번호 또는 이벤트 번호.

A 및 B 하위 시리즈의 경우 위의 공식이 학습 메커니즘에서 어떤 방식으로 구현되면 A에 대한 t 가 적기 때문에 B를 사용한 연속 교육 후 최종 결과에 대한 편향 이 줄어 듭니다. B에 대한 t 보다 B가 더 관련성이 있다고 메커니즘에 알려줍니다.

A와 B를 반으로 재귀 적으로 나누고 점점 더 세분화 된 하위 시리즈를 만들면 이전 정보가 점차 쇠퇴한다는 위의 아이디어는 여전히 유효하고 가치가 있습니다. 훈련에 사용되는 첫 번째 정보에 대한 네트워크의 편향은 좁은 마음의 심리적 개념과 같습니다. 포유류의 두뇌로 진화 한 학습 시스템은 열린 마음을 장려하기 위해 과거의 것들에 대한 관심을 잊거나 잃는 것처럼 보입니다. 이는 새로운 정보에 더 강한 학습 패턴이 포함되어있는 경우 새로운 학습이 때때로 이전 학습을 선점하는 것 이상입니다.

새로운 예제 데이터가 오래된 예제 데이터보다 점진적으로 뛰어나게하는 데는 두 가지 이유가 있습니다.

  • 더 많은 학습에서 더 최근의 사건을 적절하게 평가하기 위해 이전 학습의 편견을 제거하는 것은 경험 된 (훈련 된) 모든 사건이 시스템이 배우려고하는 외부 세계에 대한 합리적인 사실을 나타내는 경우에 의미가 있습니다.
  • 외부 세계는 변화하고 있으며 오래된 학습은 실제로 관련이 없거나 오도 될 수 있습니다.

학습이 계속됨에 따라 이전 정보의 중요성이 점진적으로 쇠약해질 필요가 있습니다. 강화의 두 가지 주요 측면 중 하나입니다. 두 번째 측면은 피드백 신호의 개념을 기반으로 한 일련의 수정 개념입니다.

피드백 및 강화

강화 학습의 피드백 신호는 고통, 즐거움, 만족감 및 건강과 같은 친숙한 심리적 개념과 동등한 기계 학습입니다. 학습 시스템은 특징 추출, 그룹화의 독립성, 또는 입력 이벤트 특징과 레이블 사이의 관계를 근사하는 신경 순 중량 행렬을 찾는 것 이상의 교육을 안내하는 정보를 제공합니다.

제공된 정보는 포유 동물의 경우와 같이 내부적으로 사전 프로그램 된 패턴 인식 또는 외부에서 보상 및 처벌에서 비롯 될 수 있습니다. 강화 된 머신 러닝에서 개발되고있는 기술과 알고리즘은 이러한 추가 신호를 자주 (처리에서 시간 슬라이싱 사용) 또는 병렬 처리 아키텍처의 처리 단위 독립성을 사용하여 사용합니다.

이 작업은 Norbert Wiener에 의해 MIT에서 개척되었으며 그의 저서 Cybernetics (MIT Press 1948)에 소개되었습니다. 사이버네틱스라는 단어 는 선박의 조종 을 의미하는 오래된 단어에서 유래했습니다 . 방향을 유지하기위한 방향타의 자동 이동은 최초의 기계적 피드백 시스템 일 수 있습니다. 잔디 깎기 엔진에는 아마도 하나가있을 것입니다.

적응 형 응용 프로그램 및 학습

방향타 위치 또는 잔디 깍는 기계 스로틀에 대한 간단한 실시간 조정은 배우지 않습니다. 이러한 적응은 일반적으로 일종의 선형 PID 제어입니다. 오늘날 확장되고있는 머신 러닝 기술은 수학자들이 혼란스럽게 부르는 복잡한 비선형 시스템의 평가 및 제어를 포함합니다.

혼란스러워, 그들은 기술 된 과정이 열광적이거나 조직화되지 않았다는 것을 의미하지는 않습니다. 카오스 인들은 수십 년 전에 단순한 비선형 방정식이 고도로 조직화 된 행동을 유발할 수 있다는 것을 발견했습니다. 그들이 의미하는 바는이 현상이 약간의 변화에 ​​너무 민감하여 예측할 수있는 고정 알고리즘이나 공식을 찾을 수 없다는 것입니다.

언어는 그런 식입니다. 같은 성명에서 수십 가지의 보컬 변곡으로 수십 가지의 다른 것을 의미 할 수 있습니다. 영어 문장 "Really"가 그 예입니다. 강화 기술은 미래의 기계가 그 진술의 다양한 의미 사이에서 높은 성공 확률로 구별 할 수있게 할 것입니다.

왜 게임이 먼저인가?

게임에는 매우 간단하고 쉽게 정의 할 수있는 시나리오가 있습니다. 컴퓨터의 출현에 기여한 주요 인물 중 한 사람인 John von Neumann 은 Oskar Morgenstern과 공동 저술 한 책인 게임과 경제 행동 이론 (Theory of Games and Economic Behavior )에서 모든 계획과 의사 결정은 실제로 다양한 복잡성의 게임 플레이라고 주장했다.

교육받은 사람들이 세 가지 힌트 소스에서 얻을 수있는 것과 같은 문장의 의미를 결정할 수있는 시스템을 만들 수있는 두뇌 모음의 훈련 예제 세트를 게임으로 고려하십시오.

  1. 대화 또는 사회적 시나리오 내 상황
  2. 스피커의 음성 활용
  3. 화자의 표정과 신체 언어

체스 너머와 게임

정확한 이해력과 더 심도 깊은 청취 기능을 갖춘 게임에서 언어 시스템으로의 경로와 함께 지구와 인간의 경험에 훨씬 중요한 강화 학습 응용 프로그램이 있습니다.

  • 조명, 가전 제품, 디지털 시스템, HVAC 및 기타 에너지 소비 장치를 끄거나 감쇠시키는 방법을 배우는 시스템 — 에너지는 시간이 지남에 따라 화석 연료 자원 고갈로 인해 인류 역사상 가장 정치적으로 영향력이 큰 상품 일 것입니다.)
  • 자율 주행 차량 개발 — 열린 도로에서 미지의 상태를 가진 사람들이 항공기, RV, 트럭, 버스 및 트랙터 트레일러와 같은 중장비의 작동에 대한 위험한 추세는 미래 사람들이 광기로 되돌아 보게 될 것입니다.
  • 정보의 신뢰성 등급 — 정보는 어디에나 있으며 그 정보의 99 % 이상이 부분적으로 또는 완전히 오류입니다. 제대로 설계된 이중 맹검 무작위 배정 연구 또는 확인 가능한 실험실 테스트 및 분석을 통해 실제 연구에 의해 거의 인증되지 않습니다.
  • 더 나은 진단, 개인에 대한 치료법 조정 및 재발 방지를위한 지속적인 치료를 지원하는 건강 관리 응용 프로그램.

이 4 대 및 기타 다수는 자동화 된 고속 거래 또는 승리 한 게임 경쟁을 통한 자산 축적보다 훨씬 중요합니다. 이는 한 사람의 가족 중 한 세대 또는 두 세대에 영향을주는 두 가지 자체 중심 머신 러닝 관심 분야입니다.

부와 명성은 게임 이론에서 제로섬 게임 이라고합니다 . 다른 사람들과 그 가족이 우리에게 동등한 중요성을 갖는 높은 황금률 철학을 고려하면 상금만큼 많은 손실을냅니다.

CAD (Computer Aided Design) 소프트웨어에 대한 강화 된 학습

컴퓨터 보조 설계는 안티 록 브레이크가 자연스럽게 완전히 자율 주행 차량으로 이끄는 것처럼 컴퓨터 설계의 선구자입니다 (인간의 도움없이).

"나의 가족이 눈을 뜨지 않고 첫 번째 시도에서 비누를 움켜 쥐고 비누와 샤워 표면을 깨끗하게 유지하는 데 어려움을 최소화 할 수있는 가능성을 극대화하는 샤워 용 비누 접시를 ​​만드십시오. 높이는 다음과 같습니다." 가족과 샤워 공간 사진도 있습니다. " 그러면 3D 프린터가 설치 지침과 함께 장치를 튀어 나와서 부착 할 수 있습니다.

물론 이러한 CD 시스템 (A가없는 CAD)은 하우스 키핑, 비전없는 인간 행동, 타일에 항목을 부착하는 방법, 일반 소비자의 도구 및 주택 유지 관리 기능, 3D 프린터 기능에 대해 교육을 받아야합니다. 그리고 다른 몇 가지.

제조 자동화 분야에서의 이러한 개발은 아마도 "대량 생산 된 패스너와 모범 사례를 사용하여이 두 부분을 부착하십시오"와 같은 간단한 명령에 대한 강화 된 학습으로 시작될 것입니다. CAD 프로그램은 나사, 리벳, 접착제 및 기타 옵션 중에서 하드웨어를 선택하여 설계자에게 작동 온도 및 진동 범위에 대한 질문을합니다. 그런 다음 선택, 위치 및 각도가 적절한 CAD 부품 세트 및 조립품 도면 및 BOM에 추가됩니다.


나는 일반적으로이 글에 대한 답을 비판적으로 언급하지 않을 것이지만, 당신이 비판을 요구 한 이후로 : 나는 강화를위한 기초 , 피드백 및 강화적응 형 응용 및 학습 섹션 상당히 줄어들 수 있다고 생각합니다. OP의 질문은 이미 RL에 대한 지식을 암시하고 있으며 원래 질문을 해결하기 전에 이와 관련된 배경 토론을 설정하는 데 많은 시간을 할애합니다.
Neil Slater

OP가 질문을했다는 것은 현장에 새로운 사람을 나타내는 현재의 연구 상태 중 하나를 나타내며 이전 섹션에서 입문서가 필요할 수 있습니다. 마지막 섹션은 질문에 더 직접적으로 대답합니다.
FauChristian
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.