«reinforcement-learning» 태그된 질문

누적 보상 개념을 최대화하기 위해 소프트웨어 에이전트가 환경에서 조치를 취해야하는 방법과 관련된 기계 학습 영역입니다.

5
강화 학습에서 Q 기능은 무엇이며 V 기능은 무엇입니까?
저 보인다 기능을 용이하게 나타낼 수있다 함수 따라서 함수 나에게 불필요한 것으로 보인다. 그러나, 나는 강화 학습에 익숙하지 않아서 뭔가 잘못되었다고 생각합니다.VVVQQQVVV 정의 Q 및 V 학습은 Markov 의사 결정 프로세스와 관련이 있습니다. MDP는 5 튜플 와(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSS 는 일련의 상태입니다 (일반적으로 유한) AAA 는 일련의 …

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
AlphaGo의 정책 네트워크와 가치 네트워크의 차이점
Google의 AlphaGo ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) 에 대한 고급 요약을 읽었으며 '정책'이라는 용어를 발견했습니다. 네트워크 "및"값 네트워크 " 높은 수준에서 저는 정책 네트워크가 움직임을 제안하는 데 사용되고 가치 네트워크는 "검색 트리의 깊이를 줄이고 각 위치에서 승자를 검색하는 대신 검색 트리의 깊이를 줄이고 (추정)"하는 데 사용됩니다. 게임의 끝. " 이 두 네트워크는 …


1
"경험 재생"이란 무엇이며 그 이점은 무엇입니까?
Google의 DeepMind Atari 논문을 읽었으며 "경험 재생"개념을 이해하려고합니다. 경험 재생은 다른 많은 강화 학습 논문 (특히 AlphaGo 논문)에서 나오므로 어떻게 작동하는지 이해하고 싶습니다. 다음은 일부 발췌문입니다. 먼저, 우리는 데이터를 무작위 화하는 경험 재생이라고 불리는 생물학적으로 영감을 얻은 메커니즘을 사용하여 관찰 순서의 상관 관계를 제거하고 데이터 분포의 변화를 부드럽게합니다. 그런 다음이 …

4
휴먼 데이터베이스가없는 AlphaGo (및 강화 학습을 사용하는 다른 게임 프로그램)
나는 그 주제의 전문가가 아니며, 나의 질문은 아마도 매우 순진합니다. 그것은 AlphaGo 프로그램에서 사용되는 강화 학습의 힘과 한계를 이해하기위한 에세이에서 나옵니다. AlphaGo 프로그램은 무엇보다도 (몬테카를로 나무 탐색 등) 거대한 인간 네트워크 게임에서 훈련 된 신경망을 사용하여 만들어졌으며,이 게임은 스스로 여러 번 프로그램. 이제 우리는 휴먼 데이터베이스없이 그러한 프로그램을 구축하려고 시도했을 …

1
간단한자가 운전 RC 자동차에 대한지도 학습과 강화 학습
나는 재미를 위해 원격 제어식자가 운전 차량을 만들고 있습니다. 온보드 컴퓨터로 Raspberry Pi를 사용하고 있습니다. 저는 자동차 주변 환경에 대한 피드백을 위해 Raspberry Pi 카메라 및 거리 센서와 같은 다양한 플러그인을 사용하고 있습니다. 비디오 프레임을 텐서로 전환하기 위해 OpenCV를 사용하고 있으며 Google의 TensorFlow를 사용하여 도로 경계와 장애물을 배우기 위해 복잡한 …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
협동 강화 학습
이미 수익 극대화를 목표로 동적 가격 책정 문제를 해결하는 단일 에이전트에 대해 기능적인 구현이 있습니다. 그러나 내가 함께 일하고있는 문제는 서로를 대체하는 여러 가지 다른 제품과 관련이 있으므로 독립적 인 학습자에게 모두 동적으로 가격을 책정하는 것은 하나의 가격이 다른 사람의 보상에 영향을 미치기 때문에 올바르지 않은 것 같습니다. 목표는 각 …

2
체스에서 시간적 차이 구현
알파-베타 가지 치기 알고리즘과 재료, 왕의 안전성, 이동성, 폰 구조 및 갇힌 조각 등을 사용하여 위치를 평가하는 평가 기능을 사용하는 체스 프로그램을 개발하고 있습니다. 에서 파생 된 에프( p ) = w1⋅ 재료 + w2⋅ kingsafety + 승삼⋅ 이동성 + w4⋅ 폰 구조형 + w5⋅ 갇힌 조각에프(피)=승1⋅재료+승2⋅왕의 안전+승삼⋅유동성+승4⋅폰 구조+승5⋅갇힌 조각f(p) …

4
강화 학습에 관한 책
나는 강화 학습을 꽤 오랫동안 이해하려고 노력했지만 어떻게 든 그리드 세계 문제를 해결하기 위해 강화 학습을위한 프로그램을 작성하는 방법을 시각화 할 수 없습니다. 강화 학습에 대한 명확한 개념을 세우는 데 도움이 될 교과서를 제안 해 주시겠습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.