목표는 텐서 포스 (Tensorforce)와 같은 프레임 워크를 사용하여 상태 중심 규칙에 따라 작업 공간에 특정 제약을 갖는 근위 정책 최적화 구성 요소를 설계하는 것입니다.
질문에 나열된 디자인 옵션
아래의 초기 분석을 읽을 때 빠른 참조를 위해 이러한 옵션이 여기에 나열됩니다.
- internal_state에 따라 각 단계에서 조치 공간을 변경하십시오. 나는 이것이 말도 안된다고 가정합니다.
- 수행 할 작업 : 모델에서 사용할 수없는 작업을 선택해도 아무런 영향이 없음을 알립니다.
- 거의 수행하지 않음 : 모델이 사용 불가능한 조치를 선택할 때 보상에 약간 부정적인 영향을 미칩니다.
- 모델을 도와주십시오 : 모델에 internal_state 값 + 불릿 포인트 2 또는 3이 무엇인지 알려주는 상태 / 관측 공간에 정수를 통합하여
초기 분석
각 움직임에 대한 행동 공간을 바꾸는 것이 현명합니다. 즉, 실제로 언급 된 문제와 사람이 게임을하는 일반적인 방법, 체스와 고에서 컴퓨터가 사람을 때리는 방식에 대한 적절한 표현입니다.
이 아이디어의 명백한 무의미는 단지 Tensorforce 프로젝트 로드맵을 따른 진행과 강화 이론을 따르는 진행의 인공물 일뿐입니다. Tensorforce 설명서 및 FAQ를 읽으면 프레임 워크가 규칙 엔진을 연결하여 작업 공간을 결정하도록 설계된 것으로 보이지 않습니다. 이것은 오픈 소스의 단점이 아닙니다. 규칙에 따라 조정 된 Markov 체인 결정에 이론을 제시하거나 알고리즘을 제안하는 논문은없는 것으로 보입니다.
Do-nothing 옵션은 문헌에 표시된 현재 사용 가능한 전략에 맞는 옵션입니다. 거의 아무것도하지 않는 것은 아마도보다 안정적이고 즉각적인 바람직한 행동을 만들어내는 접근법 일 것입니다.
모델을 돕는 개념의 문제는 모델을 확장하는 것만 큼 강력하지 않다는 것입니다. 오픈 소스에서는 모델을 나타내는 클래스를 확장하여 코드를 작성하기 전에 이론적 인 작업이 필요합니다.
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
규칙 제약 사례를 다루기 위해 학습 시스템을 확장하는 것은 박사 학위 논문에 대한 좋은 아이디어이며 가능한 많은 응용 프로그램과 함께 프로젝트 제안으로 연구 실험실에서 날아갈 수 있습니다. 모든 단계가 연구원을 설득시키지 마십시오. 기본적으로 박사 학위 논문 또는 자금 지원 AI 실험실 프로젝트를위한 단계 목록입니다.
단기 솔루션의 경우 모델을 돕는 것이 도움이 될 수 있지만 강화 학습 경로를 따라 AI의 아이디어를 발전시키기위한 올바른 전략은 아닙니다. 특정 문제에 대한 단기 해결책으로 잘 작동 할 수 있습니다. 거의 아무것도하지 않는 아이디어는 Tensorforce가 사용하고있는 특정 구현으로 이어진 수렴 증명 내에 맞기 때문에 더 건전 할 수 있습니다.
거의 아무것도하지 않는 것에서 보조 수렴으로 이름을 바꾸면 시도하기 전에 올바른 관점을 개발하는 데 도움이 될 수 있습니다. 학습 속도와 마찬가지로 오버 슈트를 피하기 위해 수렴에 접근 할 때 보조를 약화시켜야 할 수도 있습니다.