«reinforcement-learning» 태그된 질문

지금까지 학습 한 내용의 학습과 사용이 동시에 발생하는 외부 긍정적 강화 또는 부정적인 피드백 신호 또는 둘 모두에 의해 제어되는 학습과 관련된 질문의 경우.


1
Q- 러닝과 정책 그라디언트 방법의 관계는 무엇입니까?
내가 이해하는 한, Q- 러닝 및 정책 그라디언트 (PG)는 RL 문제를 해결하는 데 사용되는 두 가지 주요 접근법입니다. Q- 러닝은 특정 주에서 취해진 특정 행동의 보상을 예측하는 것을 목표로하지만 정책 그라디언트는 행동 자체를 직접 예측합니다. 그러나 두 접근법 모두 나에게 동일하게 보입니다. 즉, 행동에 대한 최대 보상을 예측하는 것 (Q- …

4
강화 학습에서 잘못된 움직임을 처리하는 방법은 무엇입니까?
5in-a-row / gomoku를 재생할 수있는 AI를 만들고 싶습니다. 제목에서 언급했듯이 강화 학습을 사용하고 싶습니다. 내가 사용 정책 그라데이션 기준으로, 즉 강화, 방법. 가치와 정책 함수 근사를 위해 신경망을 사용 합니다 . 그것은 컨볼 루션되고 완전히 연결된 레이어를 가지고 있습니다. 출력을 제외한 모든 레이어가 공유됩니다. 정책의 출력 계층에는 (보드 크기) 출력 …

2
강화 학습에서 상태를 정의하는 방법?
강화 학습과 그 변형을 공부하고 있습니다. 알고리즘이 작동하는 방식과 MDP에 적용되는 방법을 이해하기 시작했습니다. 내가 이해하지 못하는 것은 MDP의 상태를 정의하는 과정입니다. 대부분의 예제와 자습서에서는 그리드의 사각형 또는 이와 유사한 사각형과 같은 간단한 것을 나타냅니다. 보행하는 로봇 학습 등과 같은보다 복잡한 문제의 경우 이러한 상태를 정의하는 방법은 무엇입니까? 학습 또는 …



3
강화 학습에서 제한적 행동 공간을 구현하는 방법은 무엇입니까?
Tensorflow 위에 구축 된 매우 우수한 Tensorforce 라이브러리 덕분에 PPO 에이전트로 강화 학습 모델을 코딩하고 있습니다. 첫 번째 버전은 매우 간단했으며 이제 각 단계에서 모든 작업을 사용할 수없는 더 복잡한 환경으로 뛰어 들었습니다. 5 개의 동작이 있고 그 가용성이 내부 상태 (이전 동작 및 / 또는 새로운 상태 / 관찰 …

1
강화 학습 예제에서 드롭 아웃 레이어가 보이지 않는 이유는 무엇입니까?
강화 학습을 살펴보고 특히 OpenAI Gym AI와 함께 사용할 자체 환경을 만드는 과정을 살펴 보았습니다. stable_baselines 프로젝트의 에이전트를 사용하여 테스트하고 있습니다. 거의 모든 RL 예제에서 주목 한 것은 네트워크에 드롭 아웃 레이어가 전혀없는 것 같습니다. 왜 이런거야? DQN을 사용하여 통화 가격을 시뮬레이션하는 환경과 구매 및 판매시기를 배우는 간단한 에이전트를 만들었습니다. …

1
강화 학습과 PID 제어는 언제 사용해야합니까?
OpenAIGym 의 Lunar Lander와 같은 문제에 대한 솔루션을 설계 할 때 강화 학습은 상담원이 성공적으로 착륙 할 수 있도록 적절한 조치 제어를 제공하는 유혹적인 수단입니다. 그러나 PID 컨트롤러 와 같은 제어 시스템 알고리즘이 강화 학습만큼 좋지는 않지만 적절한 작업을 수행 하는 사례는 무엇 입니까? 같은 질문 이 하나 이 질문의 …

1
DQN에 두 개의 다른 네트워크가 필요한 이유는 무엇입니까?
I 관통가는 이 DQN의 구현 및 I은 라인 124, 125 Q 개의 상이한 네트워크가 초기화 된 것을 알 수있다. 내 이해로, 하나의 네트워크가 적절한 조치를 예측하고 두 번째 네트워크는 Bellman 오류를 찾기 위해 목표 Q 값을 예측한다고 생각합니다. Q 값을 단순히 예측하여 두 경우 모두에 사용하는 단일 네트워크를 만들 수없는 …

2
함수 근사법을 사용할 때 Q- 러닝이 수렴하지 않는 이유는 무엇입니까?
학습률 에 대한 다음 조건 ( Robins-Monro 조건 )이 충족 되는 경우 테이블 형식 Q- 러닝 알고리즘은 최적의 함수 를 찾을 수 있습니다.큐QQ큐※Q∗Q^* ∑티α티( s , a ) = ∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑티α2티( s , a ) &lt; ∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty 여기서 는 상태 와 연관된 …

3
REINFORCE 알고리즘의 할인율이 두 번 나타나는 이유는 무엇입니까?
저는 Richard S. Sutton과 Andrew G. Barto의 강화 학습 : 소개 (2017 년 11 월 5 일 초안 작성) 책을 읽고있었습니다 . 271 페이지에, 일시적인 Monte-Carlo Policy-Gradient Method의 의사 코드가 제시되어 있습니다. 이 의사 코드를 보면 할인 상태가 업데이트 상태에서 한 번, 반환 내에서 두 번째로 할인율이 2 번 나타나는 …

1
ML / RL 커뮤니티의 최신 연구원을 유지하는 방법?
머신 러닝을 배우고 자하는 학생으로서, 공부를 시작하는 방법과 최신 상태를 유지하는 방법을 알고 싶습니다. 예를 들어, 저는 RL 및 MAB 문제에 대해 기꺼이 노력하고 있지만 이러한 주제에 대한 거대한 문헌이 있습니다. 또한 이러한 주제는 AI 및 ML, 운영 연구, 제어 공학, 통계 등과 같은 다른 커뮤니티의 연구원이 연구합니다. 매주이 주제에 …

1
여러 연속 작업의 경우 정책 그라디언트를 어떻게 적용 할 수 있습니까?
TRPO (Trusted Region Policy Optimization) 및 PPO (Proximal Policy Optimization)는 최첨단 정책 그라디언트 알고리즘입니다. 단일 연속 동작을 사용하는 경우 일반적으로 손실 함수에 대해 확률 분포 (예 : 가우시안)를 사용합니다. 대략적인 버전은 다음과 같습니다. L ( θ ) = 로그( P(ㅏ1) ) ,엘(θ)=로그⁡(피(ㅏ1))ㅏ,L(\theta) = \log(P(a_1)) A, 어디 ㅏㅏA 보상의 장점입니다 피(ㅏ1)피(ㅏ1)P(a_1) …

3
환경도 확률 적이라면 최적의 정책은 항상 확률 적입니까?
환경이 확률 론적이라면 최적 정책은 항상 확률 적 (즉, 상태에서 행동에 대한 확률 분포로의지도)인가? 직관적으로 환경이 결정론적인 경우 (즉, 에이전트가 상태 인 경우)sss 그리고 행동을 취한다 aaa다음 상태 s′s′s' 시간 단계에 관계없이 항상 동일하면 최적의 정책도 결정 론적이어야합니다 (즉, 행동에 대한 확률 분포가 아니라 상태에서 행동으로의 맵이어야 함).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.