«reinforcement-learning» 태그된 질문

획득 한 보상을 극대화하기 위해 다른 보상과 관련된 조치를 적응 적으로 취함으로써 알고리즘이 온라인으로 환경의 구조를 학습 할 수있는 동적 전략 세트.

5
정책 외 학습과 정책 외 학습의 차이점은 무엇입니까?
인공 지능 웹 사이트는 정책 외 및 정책 외 학습을 다음과 같이 정의합니다. "외교 정책 학습자는 상담원의 행동과 독립적으로 최적 정책의 가치를 학습합니다. Q- 학습은 정책 외 학습자입니다. 정책 외 학습자는 탐구 단계를 포함하여 상담원이 수행하는 정책의 가치를 학습합니다 " 그들이 나에게 아무런 영향을 미치지 않는 것 같아서 이것에 관해 …

3
강화 학습에서 할인 요소의 역할 이해
나는 강화 학습에 대해 스스로 가르치고 있으며 할인 보상의 개념을 이해하려고 노력하고 있습니다. 따라서 어떤 상태-행동 쌍이 좋고 어떤 것이 나쁜지를 시스템에 알리려면 보상이 필요합니다. 그러나 내가 이해하지 못하는 것은 할인 된 보상이 필요한 이유입니다. 좋은 상태에 도달하는 것이 나중에가 아니라 빨리 이루어지는 것이 왜 중요한가? 나는 이것이 특정한 경우에 …

2
AlphaGo와 유사한 체스 용 심층 강화 학습 엔진이없는 이유는 무엇입니까?
컴퓨터는 오랫동안 "브 루트 포스"기술을 사용하여 체스를 플레이하고 특정 깊이로 검색 한 다음 위치를 평가할 수있었습니다. 그러나 AlphaGo 컴퓨터는 ANN을 사용하여 위치를 평가합니다 (내가 아는 한 깊이 검색은 수행하지 않음). AlphaGo가 Go와 같은 방식으로 체스를하는 체스 엔진을 만들 수 있습니까? 아무도 이것을하지 않은 이유는 무엇입니까? 이 프로그램이 오늘날 최고의 체스 …


2
지도 학습, 비지도 학습 및 강화 학습 : 워크 플로 기본 사항
지도 학습 1) 인간은 입력 및 출력 데이터를 기반으로 분류기를 작성합니다. 2) 해당 분류기는 훈련 데이터 세트로 훈련됩니다. 3) 해당 분류기는 테스트 데이터 세트로 테스트됩니다. 4) 출력 이 만족스러운 경우 배포 "이 데이터를 분류하는 방법을 알고 있습니다. 분류 도구를 사용하려면 정렬해야합니다." 방법의 포인트 : 레이블을 분류하거나 실수를 생성하는 방법 비지도 …


3
일별 시계열 분석
시계열 분석을 시도하고 있으며이 분야에 익숙하지 않습니다. 저는 2006-2009 년부터 매일 이벤트를보고 있으며 시계열 모델에 맞추고 싶습니다. 내가 한 진보는 다음과 같습니다. timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 결과 플롯은 다음과 같습니다. 데이터에 계절 성과 추세가 있는지 확인하기 위해이 게시물에 언급 된 단계를 따릅니다 . ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) …

4
Angry Birds를 플레이하기위한 머신 러닝 시스템을 어떻게 설계 하시겠습니까?
너무 많은 앵그리 버드를 플레이 한 후, 나는 내 전략을 관찰하기 시작했습니다. 각 레벨에서 별 3 개를 얻는 데 매우 구체적인 접근 방식을 개발 한 것으로 나타났습니다. 앵그리 버드를 플레이 할 수있는 머신 러닝 시스템을 개발해야하는 어려움에 대해 궁금해했습니다. 게임과 상호 작용하고 새를 시작하는 것은 사소한 일입니다. 그러나 제가 가진 …

2
반복 강화 학습이란?
나는 최근에 "반복 강화 학습"이라는 단어를 접했습니다. "Recurrent Neural Network"가 무엇인지, "Reinforcement Learning"이 무엇인지 이해하지만 "Recurrent Reinforcement Learning"이 무엇인지에 대한 많은 정보를 찾을 수 없었습니다. 누군가 "반복 강화 학습"이 무엇인지, 그리고 "반복 강화 학습"과 Q-Learning 알고리즘과 같은 일반적인 "강화 학습"의 차이점이 무엇인지 설명해 줄 수 있습니까?

1
SARSA와 Q Learning을 동시에 선택해야하는시기
SARSA와 Q Learning은 모두 유사한 방식으로 작동하는 강화 학습 알고리즘입니다. 가장 큰 차이점은 SARSA는 정책에 있고 Q Learning은 정책에 있지 않다는 것입니다. 업데이트 규칙은 다음과 같습니다. Q 학습 : Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA : Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] 여기서 st,atst,ats_t,\,a_trtrtr_t 및 r_t 는 시간 단계 ttt 에서의 상태, 동작 및 보상 이며 γγ\gamma 는 할인 …

4
Q-Learning이 테스트 중에 엡실론 욕심을 사용하는 이유는 무엇입니까?
Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 …

2
강화 학습에서 보상 기능을 만드는 방법
강화 학습을 공부하는 동안 저는 , 및 현재 상태에만 의존하는 보상 기능 등 여러 형태의 보상 기능을 접했습니다. 하지만 보상 기능을 '만들거나'정의하기가 쉽지 않다는 것을 깨달았습니다.R(s,a)R(s,a)R(s,a)R (s,a,s′)R(s,a,s')R(s,a,s') 내 질문은 다음과 같습니다. 보상 기능을 만드는 방법에 대한 규칙이 있습니까? 보상 기능에는 다른 형태가 있습니까? 예를 들어, 아마도 국가에 따라 다항식 형태입니까?



4
우리는 어떤 종류의 실제 상황에서 다중 무기 산적 알고리즘을 사용할 수 있습니까?
다중 무기 산적은 선택이 있고 어느 쪽이 자신의 복지를 극대화 할 지 잘 모르는 상황에서 잘 작동합니다. 실제 상황에 따라 알고리즘을 사용할 수 있습니다. 예를 들어, 학습은 좋은 분야가 될 수 있습니다. 아이가 목공을 배우고 있고 그것에 나쁜 경우, 알고리즘은 아마 그 / 그녀가 계속 나아가 야한다고 알려줄 것입니다. 그가 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.