«reinforcement-learning» 태그된 질문

획득 한 보상을 극대화하기 위해 다른 보상과 관련된 조치를 적응 적으로 취함으로써 알고리즘이 온라인으로 환경의 구조를 학습 할 수있는 동적 전략 세트.

3
다른 모든 정책보다 나은 정책이 항상 하나 이상있는 이유는 무엇입니까?
강화 학습 : 소개. 둘째 판, 진행 ., 리처드 S. 서튼와 앤드류 G. 바토 (C) 2012, PP. 67-68. 강화 학습 과제를 해결한다는 것은 대략 장기적으로 많은 보상을 얻는 정책을 찾는 것을 의미합니다. 유한 MDP의 경우 다음과 같은 방법으로 최적의 정책을 정확하게 정의 할 수 있습니다. 가치 함수는 정책에 대한 부분적 …

2
신경망을 이용한 Q- 러닝에 관한 질문
에 설명 된대로 Q-Learning을 구현했습니다. http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf 약. Q (S, A) 다음과 같은 신경망 구조를 사용합니다. 활성화 시그 모이 드 동작 뉴런에 대한 입력, 입력 수 + 1 (모든 입력의 크기가 0-1 임) 출력, 단일 출력. Q- 값 M 개의 숨겨진 레이어 N 개 탐색 방법 임의 0 <rand () <propExplore …

1
GAM vs LOESS vs 스플라인
컨텍스트 : 매개 변수로 표시되지 않는 산점도에 선을 그리려면에서를 사용 geom_smooth()하고 ggplot있습니다 R. 자동으로 반환 geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.내가 GAM이 일반화 된 첨가제 모델을 의미 …

1
딥 Q 학습에서 에피소드와 에포크의 차이점은 무엇입니까?
나는 유명한 논문 "심층 강화 학습으로 아타리 연주"( pdf ) 를 이해하려고합니다 . 신기원 과 에피소드 의 차이점에 대해 잘 모르겠습니다 . 알고리즘 에서 외부 루프는 에피소드 위에 있으며 그림 에서 x 축은 epoch 로 표시 됩니다. 강화 학습의 맥락에서, 나는 신기원이 무엇을 의미하는지 명확하지 않습니다. 에피소드 루프 주변의 시대는 …

1
심층 강화 학습이 불안정한 이유는 무엇입니까?
DeepMind의 심층 강화 학습에 관한 2015 년 논문에서 "안정적인 학습으로 인해 RL과 신경망을 결합하려는 이전의 시도는 크게 실패했습니다"라고 말합니다. 그런 다음이 논문은 관측에 대한 상관 관계를 기반으로이 문제의 원인을 나열합니다. 누군가 이것이 이것이 무엇을 의미하는지 설명해 주시겠습니까? 신경망이 훈련에는 있지만 시험에는 없을 수있는 일부 구조를 학습하는 과적 합의 형태입니까? 아니면 …

1
N-armed bandit 문제를 해결하기위한 최적의 알고리즘?
-greedy, softmax 및 UCB1과 같은 n-armed bandit 문제를 해결하기위한 많은 알고리즘에 대해 읽었지만 후회를 최소화하는 데 가장 적합한 방법을 정렬하는 데 문제가 있습니다.ϵϵ\epsilon n-armed bandit 문제를 해결하기 위해 알려진 최적의 알고리즘이 있습니까? 실제로 가장 성능이 좋은 것으로 보이는 알고리즘을 선택할 수 있습니까?

2
경험 재생에 정책 외 알고리즘이 필요한 이유는 무엇입니까?
DQN " 심화 강화 학습으로 Atari 재생 "을 소개하는 논문 에서 다음과 같이 언급했습니다. 경험 재생을 통해 학습하는 경우 Q 정책 학습의 선택에 동기를 부여하는 정책 외 학습 (현재의 매개 변수가 샘플 생성에 사용 된 것과 다르기 때문에)을 학습해야합니다. 나는 그것이 무엇을 의미하는지 이해하지 못했습니다. SARSA를 사용 하고 메모리에서 a'취할 …




2
몬테카를로 방법은 시간적 차이 방법보다 언제 선호됩니까?
최근에 강화 학습에 대해 많은 연구를 해왔습니다. 나는 Sutton & Barto의 강화 학습 : 대부분의 소개 를 따랐다 . Markov 의사 결정 프로세스가 무엇인지, DP (Dynamic Programming), Monte Carlo 및 DP (Temporal Difference) 학습을 사용하여 이러한 문제를 해결하는 방법을 알고 있습니다. 내가 겪고 있는 문제 는 Monte Carlo가 언제 TD- …

1
AlphaGo의 논문에서 롤아웃 정책은 무엇입니까?
종이는 여기에 있습니다 . 롤아웃 정책 ...은 점진적으로 계산 된 로컬 패턴 기반 기능을 기반으로하는 선형 softmax 정책입니다 ... 롤아웃 정책이 무엇인지, 그리고 정책 선택이 이동을 선택하는 정책 네트워크와 어떤 관련이 있는지 이해하지 못합니다. 더 간단한 설명이 있습니까?

1
함수 근사값으로 신경망을 이용한 Q- 러닝
신경망을 이용한 Q- 러닝에 관한 질문 에서와 같이 Q- 러닝의 Q- 값을 근사하기 위해 신경망을 사용하려고합니다 . 첫 번째 답변에서 제안했듯이 출력 레이어에 선형 활성화 기능을 사용하고 있지만 숨겨진 레이어에서 시그 모이 드 활성화 기능을 계속 사용하고 있습니다 (2, 나중에 변경할 수는 있음). 또한 조언 된대로 각 작업 대한 출력을 …

1
P (X)의 비 -iid 샘플 및 P (Y | X)의 iid 샘플로부터 확률 구배 하강을 통해 P (Y | X) 모델을 학습 할 수 있습니까?
일부 데이터 세트에서 확률 적 그라디언트 디센트 (stochastic gradient descent)를 통해 파라미터 화 된 모델을 훈련 할 때 (예를 들어 가능성을 최대화하기 위해), 훈련 샘플은 훈련 데이터 분포로부터 iid로 추출되는 것으로 일반적으로 가정된다. 따라서 공동 분포 를 모델링하는 것이 목표 라면 각 분포에서 각 학습 표본 을 추출해야합니다.( x i …

2
정책 반복 알고리즘이 최적의 정책 및 가치 기능으로 수렴하는 이유는 무엇입니까?
강화 학습에 대한 Andrew Ng의 강의 노트 를 읽고 있는데 , 정책 반복이 최적의 가치 함수 및 최적의 정책으로 수렴 된 이유를 이해하려고했습니다.V∗V※V^*π∗π※\pi^*. 정책 반복 회수는 다음과 같습니다. Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}초기화 π 무작위로반복{엘이자형티 V: …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.