통계 및 빅 데이터 q-learning

4

Q-Learning이 테스트 중에 엡실론 욕심을 사용하는 이유는 무엇입니까?

Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 …

18 machine-learning reinforcement-learning q-learning deep-rl

2

Q- 러닝에서 문자 Q가 선택된 이유는 무엇입니까?

Q- 러닝 이름으로 Q를 선택한 이유는 무엇입니까? 대부분의 문자는 는 정책을 의미 하고 v 는 가치를 의미하는 것과 같이 약어로 선택됩니다 . 그러나 나는 Q가 어떤 단어의 약어라고 생각하지 않습니다.ππ\pivvv

17 terminology reinforcement-learning history q-learning

1

딥 Q 학습에서 에피소드와 에포크의 차이점은 무엇입니까?

나는 유명한 논문 "심층 강화 학습으로 아타리 연주"( pdf ) 를 이해하려고합니다 . 신기원 과 에피소드 의 차이점에 대해 잘 모르겠습니다 . 알고리즘 에서 외부 루프는 에피소드 위에 있으며 그림 에서 x 축은 epoch 로 표시 됩니다. 강화 학습의 맥락에서, 나는 신기원이 무엇을 의미하는지 명확하지 않습니다. 에피소드 루프 주변의 시대는 …

14 neural-networks terminology reinforcement-learning q-learning

1

강화 학습 알고리즘에 대한 개요

나는 현재 강화 학습 알고리즘에 대한 개요와 그것들의 분류를 찾고 있습니다. 그러나 Sarsa와 Q-Learning + Deep Q-Learning 옆에는 인기있는 알고리즘을 찾을 수 없습니다. Wikipedia 는 다른 일반적인 강화 학습 방법에 대한 개요를 제공하지만이 방법을 구현하는 다른 알고리즘에 대한 참조는 없습니다. 그러나 아마도 일반적인 접근법과 알고리즘을 혼동하고 있으며 기본적으로 다른 기계 …

9 reinforcement-learning q-learning

2

비 정적 환경에서의 강화 학습 [폐쇄]

폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 20 일 전에 마감 되었습니다 . Q1 : 일반적으로 강화 학습에서 비 정적 환경을 다루는 일반적인 방법이 있습니까? Q2 : 그리드 월드에서 …

9 markov-process reinforcement-learning stationarity q-learning

4

콕스 위험 모델 생존 곡선을 어떻게 해석합니까?

콕스 비례 위험 모델의 생존 곡선을 어떻게 해석합니까? 이 장난감 예 age에서 kidney데이터의 변수에 대한 cox 비례 위험 모델이 있고 생존 곡선을 생성 한다고 가정 합니다. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 예를 들어, 시간 에 어떤 진술이 참입니까? 또는 둘 다 잘못 되었습니까?200200200 진술 1 : …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

액션 당 하나의 출력 유닛이있을 때 신경망을 이용한 Q- 러닝은 얼마나 효율적입니까?

배경 : 강화 학습 과제에서 신경망 Q- 값 근사법을 사용하고 있습니다. 접근법은 이 질문 에서 설명한 것과 정확히 동일 하지만 질문 자체는 다릅니다. 이 접근법에서 출력의 수는 우리가 취할 수있는 조치의 수입니다. 간단한 말로, 알고리즘은 다음과 같습니다. 행동 A를 수행하고, 보상을 탐색하고, 가능한 모든 행동에 대한 Q 값을 예측하도록 NN에 …

9 machine-learning neural-networks reinforcement-learning q-learning

«q-learning» 태그된 질문