«reinforcement-learning» 태그된 질문

획득 한 보상을 극대화하기 위해 다른 보상과 관련된 조치를 적응 적으로 취함으로써 알고리즘이 온라인으로 환경의 구조를 학습 할 수있는 동적 전략 세트.

1
강화 학습 알고리즘에 대한 개요
나는 현재 강화 학습 알고리즘에 대한 개요와 그것들의 분류를 찾고 있습니다. 그러나 Sarsa와 Q-Learning + Deep Q-Learning 옆에는 인기있는 알고리즘을 찾을 수 없습니다. Wikipedia 는 다른 일반적인 강화 학습 방법에 대한 개요를 제공하지만이 방법을 구현하는 다른 알고리즘에 대한 참조는 없습니다. 그러나 아마도 일반적인 접근법과 알고리즘을 혼동하고 있으며 기본적으로 다른 기계 …

2
비 정적 환경에서의 강화 학습 [폐쇄]
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 20 일 전에 마감 되었습니다 . Q1 : 일반적으로 강화 학습에서 비 정적 환경을 다루는 일반적인 방법이 있습니까? Q2 : 그리드 월드에서 …

4
콕스 위험 모델 생존 곡선을 어떻게 해석합니까?
콕스 비례 위험 모델의 생존 곡선을 어떻게 해석합니까? 이 장난감 예 age에서 kidney데이터의 변수에 대한 cox 비례 위험 모델이 있고 생존 곡선을 생성 한다고 가정 합니다. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 예를 들어, 시간 에 어떤 진술이 참입니까? 또는 둘 다 잘못 되었습니까?200200200 진술 1 : …

1
액션 당 하나의 출력 유닛이있을 때 신경망을 이용한 Q- 러닝은 얼마나 효율적입니까?
배경 : 강화 학습 과제에서 신경망 Q- 값 근사법을 사용하고 있습니다. 접근법은 이 질문 에서 설명한 것과 정확히 동일 하지만 질문 자체는 다릅니다. 이 접근법에서 출력의 수는 우리가 취할 수있는 조치의 수입니다. 간단한 말로, 알고리즘은 다음과 같습니다. 행동 A를 수행하고, 보상을 탐색하고, 가능한 모든 행동에 대한 Q 값을 예측하도록 NN에 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.