게임 이외의 응용 프로그램에서 강화 학습을 가르치는 방법이 있습니까?
인터넷에서 찾을 수있는 유일한 예는 게임 에이전트입니다. VNC가 강화 네트워크를 통해 게임에 대한 입력을 제어한다는 것을 이해합니다. CAD 소프트웨어로 이것을 설정할 수 있습니까?
게임 이외의 응용 프로그램에서 강화 학습을 가르치는 방법이 있습니까?
인터넷에서 찾을 수있는 유일한 예는 게임 에이전트입니다. VNC가 강화 네트워크를 통해 게임에 대한 입력을 제어한다는 것을 이해합니다. CAD 소프트웨어로 이것을 설정할 수 있습니까?
답변:
게임 환경은 종종 효율적으로 코딩 될 수 있고 환경과 에이전트를 포함 할 수있는 단일 컴퓨터에서 빠르게 실행될 수 있기 때문에 강화 학습 문헌에 많은 게임 예제가 표시됩니다. 주사위 놀이, 체커, 체스와 같은 고전 게임의 경우 결과를 비교할 수있는 인간 전문가가 있습니다. MNIST 필기 숫자가 감독 학습 방식을 비교하는 데 사용되는 것과 같이 특정 게임 또는 단순화 된 게임과 유사한 환경이 일반적으로 다른 접근법을 비교하는 데 사용됩니다.
게임 이외의 응용 프로그램에서 강화 학습을 가르치는 방법이 있습니까?
예. 비공식적으로, 상태와 목표에 영향을 미치는 보상 가치를 알 수있는 환경 내에서 행동하는 에이전트로서 문제를 구성 할 수있을 때마다 강화 학습 접근법을 적용 할 수 있습니다. 보다 공식적으로 강화 학습 이론은 Markov 의사 결정 프로세스 에 대한 솔루션을 기반으로 하므로 문제 설명을 MDP에 맞추면 Q-learning, SARSA, REINFORCE와 같은 RL에 사용되는 다양한 기술을 적용 할 수 있습니다. 이론에 대한 이러한 적합은 결과 시스템이 작동하기 위해 완벽 할 필요는 없습니다. 예를 들어, 알려지지 않았거나 불완전하게 관찰 된 상태를 에이전트에 효과적으로 무작위로 처리하고 확률 적 환경의이 부분을 고려할 수 있습니다.
레크레이션 게임 이외의 강화 학습에 사용 가능한 예는 다음과 같습니다.
팬케이크 뒤집기 학습 및 기타 예제와 같은 전동 로봇을위한 제어 로직 . 여기서 환경 측정은 로봇의 물리적 센서에 의해 이루어집니다. 목표 달성에 대한 보상은 주어 지지만 매끄러움, 에너지의 경제적 인 사용 등을 위해 조정될 수도 있습니다. 에이전트는 모터 토크 또는 릴레이 위치와 같은 저수준 행동을 선택합니다. 이론적으로 상위 레벨의 담당자가 하위 레벨의 목표를 선택하는 중첩 된 에이전트가있을 수 있습니다. 예를 들어 로봇은 다른 위치로 이동해야하는 세 가지 작업 중 하나를 수행하는 단계를 높은 수준에서 결정할 수 있습니다. 로봇을 선택한 목표로 이동시키기 위해 모터를 제어하는 방법에 대한 결정.
자율 주행 차. 도로 표시, 보행자 등의 센서 해석에 중점을두고 있지만 가속기, 브레이크 및 조향을 선택하려면 제어 시스템이 필요합니다.
자동화 된 금융 거래. 어쩌면 일부에게는 게임이 될 수 있으며 실제 결과는 분명합니다. 보상 신호는 간단하지만 RL은 장기 또는 단기 이득을 선호하도록 조정할 수 있습니다.
CAD 소프트웨어로 이것을 설정할 수 있습니까?
이론적으로는 그렇습니다. 그러나 실제로 이것을 할 수있는 것이 무엇인지 모르겠습니다. 또한 가상 마우스를 제공하고 무언가를 그리는 작업을 설정하기 전에 에이전트에 관찰 할 수있는 보상 값으로 코딩한다는 목표를 명심해야합니다. 컴퓨터 게임에는 점수 시스템으로 내장 된 보상 체계가 포함되어 있으며, 자주 피드백을 제공하므로 상담원은 좋은 결정과 나쁜 결정에 대한 지식을 빠르게 얻을 수 있습니다. 이 스코어링 구성 요소를 CAD 기반 시스템의 목표를 나타내는 것으로 대체해야합니다.
다양한 물리 엔진 또는 유한 요소 분석과 같은 시뮬레이션 기능이있는 CAD 도구를 사용하면 시뮬레이션 된 물리적 측정을 기반으로 설계에 점수를 매길 수 있지만 CAD에는 적합한 내장 기능이 없습니다. 다른 가능성으로는 CAD / CAM 시스템이 부분 또는 완성 된 설계에 제공 할 수있는 모든 측정 항목에 대한 변형률, 비 폐기물 사용에 대한 분석이 포함됩니다. 까다로운 부분은 디자인을 목표 또는 목적으로 제한하고 보상을 받도록 설계하거나 환경에 제약 조건을 구축하는 것입니다. RL 에이전트에게 CAD 프로세스에 대한 무제한 제어를 제공하고 최저 변형률에 대한 보상은 작은 큐브와 같이 매우 흥미롭지 않은 결과를 초래할 수 있습니다.
많은 사람들이 강화 학습을 실제 웹, 모바일 및 워크 스테이션 응용 프로그램에 도입 할 수있는 방법이 있습니다.
군사 조직, 영화 산업, 소프트웨어 중심 기업이하고 있으며, Fortune 500 대 기업과 소기업 모두를 위해 해냈습니다. FaceBook의 안면 인식 로봇에서 Google Translate, USPS 우편 번호 인식 시스템, 자율 비행 및 교통 제어 시스템에 이르기까지 모든 종류의 시스템 구성 요소에는 적응 형 학습 구성 요소가 있습니다. CAD (Computer Aided Design Software)는 확실히 실행 가능한 대상입니다.
강화의 기초
이벤트를 설명하는 일련의 벡터를 고려하십시오. 그것들이 두 개의 하위 시리즈 A와 B로 나뉘어져 있다고 상상해보십시오. 신경망 (인공 또는 생물학적)은 A를 사용하여 훈련 될 수 있습니다.
훈련은 감독 될 수 있는데, 이는 벡터의 차원 중 하나가 레이블로 간주되므로 최적 예측을위한 종속 변수로 간주됩니다. 그런 다음 다른 차원은 사실 또는 입력 신호가되므로 예측에 사용할 독립 변수가됩니다. 기능 추출을 사용하여 교육을 감독 할 수 없습니다.
어느 쪽이든, B 이전에 A가 제공되고 B가 도착하기 전에 생산 (실제 사용)에서 수행 될 것으로 예상되는 경우, B의 나중에 도착이 선택을 제공합니다.
선택 # 3은 선택 # 1 및 # 2의 이점을 포함하므로 많은 경우에 가장 적합한 선택입니다. 수학적으로 # 3은 어떤 식으로 시리즈 A에서 배운 것을 선점함으로써 촉진됩니다. 새로운 경험이 그렇게 할 필요가 있음을 나타 내기 때문에 신경 순 중량과 메타 매개 변수 조정은 수정에 민감해야합니다. 하나의 순진한 접근법은 물리, 화학 및 사회 과학의 많은 현상에서 자연적 붕괴를 모델링하는 역 지수 함수를 수학적으로 공식화 할 수 있습니다.
P = e -nt (여기서 P 는 사실이 여전히 유효 할 확률이고, n 은 과거 학습 된 정보의 붕괴율이며, t 는 타임 스탬프, 서브 시퀀스 (일괄 처리) 번호와 같은 일부 진행률 측정치입니다. 팩트 시퀀스 번호 또는 이벤트 번호.
A 및 B 하위 시리즈의 경우 위의 공식이 학습 메커니즘에서 어떤 방식으로 구현되면 A에 대한 t 가 적기 때문에 B를 사용한 연속 교육 후 최종 결과에 대한 편향 이 줄어 듭니다. B에 대한 t 보다 B가 더 관련성이 있다고 메커니즘에 알려줍니다.
A와 B를 반으로 재귀 적으로 나누고 점점 더 세분화 된 하위 시리즈를 만들면 이전 정보가 점차 쇠퇴한다는 위의 아이디어는 여전히 유효하고 가치가 있습니다. 훈련에 사용되는 첫 번째 정보에 대한 네트워크의 편향은 좁은 마음의 심리적 개념과 같습니다. 포유류의 두뇌로 진화 한 학습 시스템은 열린 마음을 장려하기 위해 과거의 것들에 대한 관심을 잊거나 잃는 것처럼 보입니다. 이는 새로운 정보에 더 강한 학습 패턴이 포함되어있는 경우 새로운 학습이 때때로 이전 학습을 선점하는 것 이상입니다.
새로운 예제 데이터가 오래된 예제 데이터보다 점진적으로 뛰어나게하는 데는 두 가지 이유가 있습니다.
학습이 계속됨에 따라 이전 정보의 중요성이 점진적으로 쇠약해질 필요가 있습니다. 강화의 두 가지 주요 측면 중 하나입니다. 두 번째 측면은 피드백 신호의 개념을 기반으로 한 일련의 수정 개념입니다.
피드백 및 강화
강화 학습의 피드백 신호는 고통, 즐거움, 만족감 및 건강과 같은 친숙한 심리적 개념과 동등한 기계 학습입니다. 학습 시스템은 특징 추출, 그룹화의 독립성, 또는 입력 이벤트 특징과 레이블 사이의 관계를 근사하는 신경 순 중량 행렬을 찾는 것 이상의 교육을 안내하는 정보를 제공합니다.
제공된 정보는 포유 동물의 경우와 같이 내부적으로 사전 프로그램 된 패턴 인식 또는 외부에서 보상 및 처벌에서 비롯 될 수 있습니다. 강화 된 머신 러닝에서 개발되고있는 기술과 알고리즘은 이러한 추가 신호를 자주 (처리에서 시간 슬라이싱 사용) 또는 병렬 처리 아키텍처의 처리 단위 독립성을 사용하여 사용합니다.
이 작업은 Norbert Wiener에 의해 MIT에서 개척되었으며 그의 저서 Cybernetics (MIT Press 1948)에 소개되었습니다. 사이버네틱스라는 단어 는 선박의 조종 을 의미하는 오래된 단어에서 유래했습니다 . 방향을 유지하기위한 방향타의 자동 이동은 최초의 기계적 피드백 시스템 일 수 있습니다. 잔디 깎기 엔진에는 아마도 하나가있을 것입니다.
적응 형 응용 프로그램 및 학습
방향타 위치 또는 잔디 깍는 기계 스로틀에 대한 간단한 실시간 조정은 배우지 않습니다. 이러한 적응은 일반적으로 일종의 선형 PID 제어입니다. 오늘날 확장되고있는 머신 러닝 기술은 수학자들이 혼란스럽게 부르는 복잡한 비선형 시스템의 평가 및 제어를 포함합니다.
혼란스러워, 그들은 기술 된 과정이 열광적이거나 조직화되지 않았다는 것을 의미하지는 않습니다. 카오스 인들은 수십 년 전에 단순한 비선형 방정식이 고도로 조직화 된 행동을 유발할 수 있다는 것을 발견했습니다. 그들이 의미하는 바는이 현상이 약간의 변화에 너무 민감하여 예측할 수있는 고정 알고리즘이나 공식을 찾을 수 없다는 것입니다.
언어는 그런 식입니다. 같은 성명에서 수십 가지의 보컬 변곡으로 수십 가지의 다른 것을 의미 할 수 있습니다. 영어 문장 "Really"가 그 예입니다. 강화 기술은 미래의 기계가 그 진술의 다양한 의미 사이에서 높은 성공 확률로 구별 할 수있게 할 것입니다.
왜 게임이 먼저인가?
게임에는 매우 간단하고 쉽게 정의 할 수있는 시나리오가 있습니다. 컴퓨터의 출현에 기여한 주요 인물 중 한 사람인 John von Neumann 은 Oskar Morgenstern과 공동 저술 한 책인 게임과 경제 행동 이론 (Theory of Games and Economic Behavior )에서 모든 계획과 의사 결정은 실제로 다양한 복잡성의 게임 플레이라고 주장했다.
교육받은 사람들이 세 가지 힌트 소스에서 얻을 수있는 것과 같은 문장의 의미를 결정할 수있는 시스템을 만들 수있는 두뇌 모음의 훈련 예제 세트를 게임으로 고려하십시오.
체스 너머와 게임
정확한 이해력과 더 심도 깊은 청취 기능을 갖춘 게임에서 언어 시스템으로의 경로와 함께 지구와 인간의 경험에 훨씬 중요한 강화 학습 응용 프로그램이 있습니다.
이 4 대 및 기타 다수는 자동화 된 고속 거래 또는 승리 한 게임 경쟁을 통한 자산 축적보다 훨씬 중요합니다. 이는 한 사람의 가족 중 한 세대 또는 두 세대에 영향을주는 두 가지 자체 중심 머신 러닝 관심 분야입니다.
부와 명성은 게임 이론에서 제로섬 게임 이라고합니다 . 다른 사람들과 그 가족이 우리에게 동등한 중요성을 갖는 높은 황금률 철학을 고려하면 상금만큼 많은 손실을냅니다.
CAD (Computer Aided Design) 소프트웨어에 대한 강화 된 학습
컴퓨터 보조 설계는 안티 록 브레이크가 자연스럽게 완전히 자율 주행 차량으로 이끄는 것처럼 컴퓨터 설계의 선구자입니다 (인간의 도움없이).
"나의 가족이 눈을 뜨지 않고 첫 번째 시도에서 비누를 움켜 쥐고 비누와 샤워 표면을 깨끗하게 유지하는 데 어려움을 최소화 할 수있는 가능성을 극대화하는 샤워 용 비누 접시를 만드십시오. 높이는 다음과 같습니다." 가족과 샤워 공간 사진도 있습니다. " 그러면 3D 프린터가 설치 지침과 함께 장치를 튀어 나와서 부착 할 수 있습니다.
물론 이러한 CD 시스템 (A가없는 CAD)은 하우스 키핑, 비전없는 인간 행동, 타일에 항목을 부착하는 방법, 일반 소비자의 도구 및 주택 유지 관리 기능, 3D 프린터 기능에 대해 교육을 받아야합니다. 그리고 다른 몇 가지.
제조 자동화 분야에서의 이러한 개발은 아마도 "대량 생산 된 패스너와 모범 사례를 사용하여이 두 부분을 부착하십시오"와 같은 간단한 명령에 대한 강화 된 학습으로 시작될 것입니다. CAD 프로그램은 나사, 리벳, 접착제 및 기타 옵션 중에서 하드웨어를 선택하여 설계자에게 작동 온도 및 진동 범위에 대한 질문을합니다. 그런 다음 선택, 위치 및 각도가 적절한 CAD 부품 세트 및 조립품 도면 및 BOM에 추가됩니다.