통계 및 빅 데이터 reinforcement-learning

5

인공 지능 웹 사이트는 정책 외 및 정책 외 학습을 다음과 같이 정의합니다. "외교 정책 학습자는 상담원의 행동과 독립적으로 최적 정책의 가치를 학습합니다. Q- 학습은 정책 외 학습자입니다. 정책 외 학습자는 탐구 단계를 포함하여 상담원이 수행하는 정책의 가치를 학습합니다 " 그들이 나에게 아무런 영향을 미치지 않는 것 같아서 이것에 관해 …

78 machine-learning reinforcement-learning artificial-intelligence

3

강화 학습에서 할인 요소의 역할 이해

나는 강화 학습에 대해 스스로 가르치고 있으며 할인 보상의 개념을 이해하려고 노력하고 있습니다. 따라서 어떤 상태-행동 쌍이 좋고 어떤 것이 나쁜지를 시스템에 알리려면 보상이 필요합니다. 그러나 내가 이해하지 못하는 것은 할인 된 보상이 필요한 이유입니다. 좋은 상태에 도달하는 것이 나중에가 아니라 빨리 이루어지는 것이 왜 중요한가? 나는 이것이 특정한 경우에 …

43 machine-learning reinforcement-learning

2

AlphaGo와 유사한 체스 용 심층 강화 학습 엔진이없는 이유는 무엇입니까?

컴퓨터는 오랫동안 "브 루트 포스"기술을 사용하여 체스를 플레이하고 특정 깊이로 검색 한 다음 위치를 평가할 수있었습니다. 그러나 AlphaGo 컴퓨터는 ANN을 사용하여 위치를 평가합니다 (내가 아는 한 깊이 검색은 수행하지 않음). AlphaGo가 Go와 같은 방식으로 체스를하는 체스 엔진을 만들 수 있습니까? 아무도 이것을하지 않은 이유는 무엇입니까? 이 프로그램이 오늘날 최고의 체스 …

32 neural-networks deep-learning reinforcement-learning games

9

강화 학습에서 Bellman의 방정식 도출

" 강의 학습에서 소개 "에 다음 방정식 이 표시되지만 아래에서 파란색으로 강조 표시된 단계를 따르지 않습니다. 이 단계는 정확히 어떻게 도출됩니까?

32 expected-value reinforcement-learning

2

지도 학습, 비지도 학습 및 강화 학습 : 워크 플로 기본 사항

지도 학습 1) 인간은 입력 및 출력 데이터를 기반으로 분류기를 작성합니다. 2) 해당 분류기는 훈련 데이터 세트로 훈련됩니다. 3) 해당 분류기는 테스트 데이터 세트로 테스트됩니다. 4) 출력 이 만족스러운 경우 배포 "이 데이터를 분류하는 방법을 알고 있습니다. 분류 도구를 사용하려면 정렬해야합니다." 방법의 포인트 : 레이블을 분류하거나 실수를 생성하는 방법 비지도 …

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

3

최고의 산적 알고리즘?

가장 잘 알려진 산적 알고리즘은이 클래스의 알고리즘을 대중화 한 신뢰 상한 (UCB)입니다. 그 이후로 더 나은 알고리즘이 있다고 가정합니다. 현재 최고의 알고리즘은 무엇입니까 (경험적 성능 또는 이론적 한계 측면에서)? 이 알고리즘은 어떤 의미에서 최적입니까?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

3

일별 시계열 분석

시계열 분석을 시도하고 있으며이 분야에 익숙하지 않습니다. 저는 2006-2009 년부터 매일 이벤트를보고 있으며 시계열 모델에 맞추고 싶습니다. 내가 한 진보는 다음과 같습니다. timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 결과 플롯은 다음과 같습니다. 데이터에 계절 성과 추세가 있는지 확인하기 위해이 게시물에 언급 된 단계를 따릅니다 . ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) …

24 r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

4

Angry Birds를 플레이하기위한 머신 러닝 시스템을 어떻게 설계 하시겠습니까?

너무 많은 앵그리 버드를 플레이 한 후, 나는 내 전략을 관찰하기 시작했습니다. 각 레벨에서 별 3 개를 얻는 데 매우 구체적인 접근 방식을 개발 한 것으로 나타났습니다. 앵그리 버드를 플레이 할 수있는 머신 러닝 시스템을 개발해야하는 어려움에 대해 궁금해했습니다. 게임과 상호 작용하고 새를 시작하는 것은 사소한 일입니다. 그러나 제가 가진 …

22 machine-learning reinforcement-learning

2

반복 강화 학습이란?

나는 최근에 "반복 강화 학습"이라는 단어를 접했습니다. "Recurrent Neural Network"가 무엇인지, "Reinforcement Learning"이 무엇인지 이해하지만 "Recurrent Reinforcement Learning"이 무엇인지에 대한 많은 정보를 찾을 수 없었습니다. 누군가 "반복 강화 학습"이 무엇인지, 그리고 "반복 강화 학습"과 Q-Learning 알고리즘과 같은 일반적인 "강화 학습"의 차이점이 무엇인지 설명해 줄 수 있습니까?

20 machine-learning reinforcement-learning

1

SARSA와 Q Learning을 동시에 선택해야하는시기

SARSA와 Q Learning은 모두 유사한 방식으로 작동하는 강화 학습 알고리즘입니다. 가장 큰 차이점은 SARSA는 정책에 있고 Q Learning은 정책에 있지 않다는 것입니다. 업데이트 규칙은 다음과 같습니다. Q 학습 : Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA : Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] 여기서 st,atst,ats_t,\,a_trtrtr_t 및 r_t 는 시간 단계 ttt 에서의 상태, 동작 및 보상 이며 γγ\gamma 는 할인 …

19 reinforcement-learning

4

Q-Learning이 테스트 중에 엡실론 욕심을 사용하는 이유는 무엇입니까?

Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 …

18 machine-learning reinforcement-learning q-learning deep-rl

2

강화 학습에서 보상 기능을 만드는 방법

강화 학습을 공부하는 동안 저는 , 및 현재 상태에만 의존하는 보상 기능 등 여러 형태의 보상 기능을 접했습니다. 하지만 보상 기능을 '만들거나'정의하기가 쉽지 않다는 것을 깨달았습니다.R(s,a)R(s,a)R(s,a)R (s,a,s′)R(s,a,s')R(s,a,s') 내 질문은 다음과 같습니다. 보상 기능을 만드는 방법에 대한 규칙이 있습니까? 보상 기능에는 다른 형태가 있습니까? 예를 들어, 아마도 국가에 따라 다항식 형태입니까?

18 machine-learning reinforcement-learning

2

Q- 러닝에서 문자 Q가 선택된 이유는 무엇입니까?

Q- 러닝 이름으로 Q를 선택한 이유는 무엇입니까? 대부분의 문자는 는 정책을 의미 하고 v 는 가치를 의미하는 것과 같이 약어로 선택됩니다 . 그러나 나는 Q가 어떤 단어의 약어라고 생각하지 않습니다.ππ\pivvv

17 terminology reinforcement-learning history q-learning

1

지도 학습은 강화 학습의 하위 집합입니까?

지도 학습의 정의는 강화 된 학습 의 하위 집합 인 것 같습니다 (환경의 다른 정보와는 대조적으로) 레이블이 지정된 데이터를 기반으로하는 특정 유형의 보상 기능이 있습니다. 이것이 정확한 묘사입니까?

16 machine-learning terminology reinforcement-learning supervised-learning definition

4

우리는 어떤 종류의 실제 상황에서 다중 무기 산적 알고리즘을 사용할 수 있습니까?

다중 무기 산적은 선택이 있고 어느 쪽이 자신의 복지를 극대화 할 지 잘 모르는 상황에서 잘 작동합니다. 실제 상황에 따라 알고리즘을 사용할 수 있습니다. 예를 들어, 학습은 좋은 분야가 될 수 있습니다. 아이가 목공을 배우고 있고 그것에 나쁜 경우, 알고리즘은 아마 그 / 그녀가 계속 나아가 야한다고 알려줄 것입니다. 그가 …

15 algorithms reinforcement-learning multiarmed-bandit

«reinforcement-learning» 태그된 질문