통계 및 빅 데이터 reinforcement-learning

3

15 markov-process reinforcement-learning

2

에 설명 된대로 Q-Learning을 구현했습니다. http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf 약. Q (S, A) 다음과 같은 신경망 구조를 사용합니다. 활성화 시그 모이 드 동작 뉴런에 대한 입력, 입력 수 + 1 (모든 입력의 크기가 0-1 임) 출력, 단일 출력. Q- 값 M 개의 숨겨진 레이어 N 개 탐색 방법 임의 0 <rand () <propExplore …

14 machine-learning neural-networks reinforcement-learning

1

GAM vs LOESS vs 스플라인

컨텍스트 : 매개 변수로 표시되지 않는 산점도에 선을 그리려면에서를 사용 geom_smooth()하고 ggplot있습니다 R. 자동으로 반환 geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.내가 GAM이 일반화 된 첨가제 모델을 의미 …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

딥 Q 학습에서 에피소드와 에포크의 차이점은 무엇입니까?

나는 유명한 논문 "심층 강화 학습으로 아타리 연주"( pdf ) 를 이해하려고합니다 . 신기원 과 에피소드 의 차이점에 대해 잘 모르겠습니다 . 알고리즘 에서 외부 루프는 에피소드 위에 있으며 그림 에서 x 축은 epoch 로 표시 됩니다. 강화 학습의 맥락에서, 나는 신기원이 무엇을 의미하는지 명확하지 않습니다. 에피소드 루프 주변의 시대는 …

14 neural-networks terminology reinforcement-learning q-learning

1

심층 강화 학습이 불안정한 이유는 무엇입니까?

DeepMind의 심층 강화 학습에 관한 2015 년 논문에서 "안정적인 학습으로 인해 RL과 신경망을 결합하려는 이전의 시도는 크게 실패했습니다"라고 말합니다. 그런 다음이 논문은 관측에 대한 상관 관계를 기반으로이 문제의 원인을 나열합니다. 누군가 이것이 이것이 무엇을 의미하는지 설명해 주시겠습니까? 신경망이 훈련에는 있지만 시험에는 없을 수있는 일부 구조를 학습하는 과적 합의 형태입니까? 아니면 …

13 machine-learning neural-networks deep-learning reinforcement-learning

1

N-armed bandit 문제를 해결하기위한 최적의 알고리즘?

-greedy, softmax 및 UCB1과 같은 n-armed bandit 문제를 해결하기위한 많은 알고리즘에 대해 읽었지만 후회를 최소화하는 데 가장 적합한 방법을 정렬하는 데 문제가 있습니다.ϵϵ\epsilon n-armed bandit 문제를 해결하기 위해 알려진 최적의 알고리즘이 있습니까? 실제로 가장 성능이 좋은 것으로 보이는 알고리즘을 선택할 수 있습니까?

13 machine-learning reinforcement-learning multiarmed-bandit

2

경험 재생에 정책 외 알고리즘이 필요한 이유는 무엇입니까?

DQN " 심화 강화 학습으로 Atari 재생 "을 소개하는 논문 에서 다음과 같이 언급했습니다. 경험 재생을 통해 학습하는 경우 Q 정책 학습의 선택에 동기를 부여하는 정책 외 학습 (현재의 매개 변수가 샘플 생성에 사용 된 것과 다르기 때문에)을 학습해야합니다. 나는 그것이 무엇을 의미하는지 이해하지 못했습니다. SARSA를 사용 하고 메모리에서 a'취할 …

12 reinforcement-learning

2

기계 학습 문제를 회귀 프레임 워크로 변환

I은 설명 변수의 패널을 가정 들어 난 = 1 . . . N , t = 1 입니다. . . T 뿐만 아니라 이진 결과 의존 변수 Y i T 의 벡터 . 따라서 Y 는 최종 시간 T 에서만 관찰되며 이전 시간 에는 관찰 되지 않습니다. 완전히 일반적인 경우 …

12 regression machine-learning reinforcement-learning

3

게임 이론과 강화 학습의 관계는 무엇입니까?

나는에 관심이 있어요 (깊은) 강화 학습 (RL) . 이 분야에 뛰어 들기 전에 게임 이론 (GT) 과정을 수강해야 합니까? GT 와 RL 은 어떤 관련이 있습니까?

12 deep-learning reinforcement-learning game-theory

1

선형 함수 근사법을 사용하여 가중치를 Q 값에 맞추는 방법

강화 학습에서 선형 함수 근사법은 큰 상태 공간이 존재할 때 종종 사용됩니다. 조회 테이블을 사용할 수 없게 될 때. 의 형태 선형 함수로 근사 값으로 주어진다Q -Q−Q- Q ( s , a ) = w1에프1( s , a ) + w2에프2( s , a ) + ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 …

12 machine-learning feature-selection reinforcement-learning

2

몬테카를로 방법은 시간적 차이 방법보다 언제 선호됩니까?

최근에 강화 학습에 대해 많은 연구를 해왔습니다. 나는 Sutton & Barto의 강화 학습 : 대부분의 소개 를 따랐다 . Markov 의사 결정 프로세스가 무엇인지, DP (Dynamic Programming), Monte Carlo 및 DP (Temporal Difference) 학습을 사용하여 이러한 문제를 해결하는 방법을 알고 있습니다. 내가 겪고 있는 문제 는 Monte Carlo가 언제 TD- …

12 monte-carlo reinforcement-learning temporal-difference

1

AlphaGo의 논문에서 롤아웃 정책은 무엇입니까?

종이는 여기에 있습니다 . 롤아웃 정책 ...은 점진적으로 계산 된 로컬 패턴 기반 기능을 기반으로하는 선형 softmax 정책입니다 ... 롤아웃 정책이 무엇인지, 그리고 정책 선택이 이동을 선택하는 정책 네트워크와 어떤 관련이 있는지 이해하지 못합니다. 더 간단한 설명이 있습니까?

11 machine-learning monte-carlo reinforcement-learning games

1

함수 근사값으로 신경망을 이용한 Q- 러닝

신경망을 이용한 Q- 러닝에 관한 질문 에서와 같이 Q- 러닝의 Q- 값을 근사하기 위해 신경망을 사용하려고합니다 . 첫 번째 답변에서 제안했듯이 출력 레이어에 선형 활성화 기능을 사용하고 있지만 숨겨진 레이어에서 시그 모이 드 활성화 기능을 계속 사용하고 있습니다 (2, 나중에 변경할 수는 있음). 또한 조언 된대로 각 작업 대한 출력을 …

11 neural-networks reinforcement-learning

1

P (X)의 비 -iid 샘플 및 P (Y | X)의 iid 샘플로부터 확률 구배 하강을 통해 P (Y | X) 모델을 학습 할 수 있습니까?

일부 데이터 세트에서 확률 적 그라디언트 디센트 (stochastic gradient descent)를 통해 파라미터 화 된 모델을 훈련 할 때 (예를 들어 가능성을 최대화하기 위해), 훈련 샘플은 훈련 데이터 분포로부터 iid로 추출되는 것으로 일반적으로 가정된다. 따라서 공동 분포 를 모델링하는 것이 목표 라면 각 분포에서 각 학습 표본 을 추출해야합니다.( x i …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

정책 반복 알고리즘이 최적의 정책 및 가치 기능으로 수렴하는 이유는 무엇입니까?

강화 학습에 대한 Andrew Ng의 강의 노트 를 읽고 있는데 , 정책 반복이 최적의 가치 함수 및 최적의 정책으로 수렴 된 이유를 이해하려고했습니다.V∗V※V^*π∗π※\pi^*. 정책 반복 회수는 다음과 같습니다. Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}초기화 π 무작위로반복{엘이자형티 V: …

10 reinforcement-learning policy-iteration

«reinforcement-learning» 태그된 질문