«q-learning» 태그된 질문

4
Q-Learning이 테스트 중에 엡실론 욕심을 사용하는 이유는 무엇입니까?
Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 …


1
딥 Q 학습에서 에피소드와 에포크의 차이점은 무엇입니까?
나는 유명한 논문 "심층 강화 학습으로 아타리 연주"( pdf ) 를 이해하려고합니다 . 신기원 과 에피소드 의 차이점에 대해 잘 모르겠습니다 . 알고리즘 에서 외부 루프는 에피소드 위에 있으며 그림 에서 x 축은 epoch 로 표시 됩니다. 강화 학습의 맥락에서, 나는 신기원이 무엇을 의미하는지 명확하지 않습니다. 에피소드 루프 주변의 시대는 …

1
강화 학습 알고리즘에 대한 개요
나는 현재 강화 학습 알고리즘에 대한 개요와 그것들의 분류를 찾고 있습니다. 그러나 Sarsa와 Q-Learning + Deep Q-Learning 옆에는 인기있는 알고리즘을 찾을 수 없습니다. Wikipedia 는 다른 일반적인 강화 학습 방법에 대한 개요를 제공하지만이 방법을 구현하는 다른 알고리즘에 대한 참조는 없습니다. 그러나 아마도 일반적인 접근법과 알고리즘을 혼동하고 있으며 기본적으로 다른 기계 …

2
비 정적 환경에서의 강화 학습 [폐쇄]
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 20 일 전에 마감 되었습니다 . Q1 : 일반적으로 강화 학습에서 비 정적 환경을 다루는 일반적인 방법이 있습니까? Q2 : 그리드 월드에서 …

4
콕스 위험 모델 생존 곡선을 어떻게 해석합니까?
콕스 비례 위험 모델의 생존 곡선을 어떻게 해석합니까? 이 장난감 예 age에서 kidney데이터의 변수에 대한 cox 비례 위험 모델이 있고 생존 곡선을 생성 한다고 가정 합니다. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 예를 들어, 시간 에 어떤 진술이 참입니까? 또는 둘 다 잘못 되었습니까?200200200 진술 1 : …

1
액션 당 하나의 출력 유닛이있을 때 신경망을 이용한 Q- 러닝은 얼마나 효율적입니까?
배경 : 강화 학습 과제에서 신경망 Q- 값 근사법을 사용하고 있습니다. 접근법은 이 질문 에서 설명한 것과 정확히 동일 하지만 질문 자체는 다릅니다. 이 접근법에서 출력의 수는 우리가 취할 수있는 조치의 수입니다. 간단한 말로, 알고리즘은 다음과 같습니다. 행동 A를 수행하고, 보상을 탐색하고, 가능한 모든 행동에 대한 Q 값을 예측하도록 NN에 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.