데이터 과학 reinforcement-learning

5

저 보인다 기능을 용이하게 나타낼 수있다 함수 따라서 함수 나에게 불필요한 것으로 보인다. 그러나, 나는 강화 학습에 익숙하지 않아서 뭔가 잘못되었다고 생각합니다.VVVQQQVVV 정의 Q 및 V 학습은 Markov 의사 결정 프로세스와 관련이 있습니다. MDP는 5 튜플 와(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSS 는 일련의 상태입니다 (일반적으로 유한) AAA 는 일련의 …

30 machine-learning reinforcement-learning

1

xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?

100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

5

AlphaGo의 정책 네트워크와 가치 네트워크의 차이점

Google의 AlphaGo ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) 에 대한 고급 요약을 읽었으며 '정책'이라는 용어를 발견했습니다. 네트워크 "및"값 네트워크 " 높은 수준에서 저는 정책 네트워크가 움직임을 제안하는 데 사용되고 가치 네트워크는 "검색 트리의 깊이를 줄이고 각 위치에서 승자를 검색하는 대신 검색 트리의 깊이를 줄이고 (추정)"하는 데 사용됩니다. 게임의 끝. " 이 두 네트워크는 …

25 machine-learning reinforcement-learning

2

강화 학습에서 부트 스트랩은 정확히 무엇입니까?

강화 학습에서 시간차 (TD) 방법은 부트 스트랩 방법입니다. 반면, Monte Carlo 방법은 부트 스트랩 방법이 아닙니다. RL에서 부트 스트랩은 정확히 무엇입니까? RL의 부트 스트랩 방법은 무엇입니까?

23 reinforcement-learning

1

"경험 재생"이란 무엇이며 그 이점은 무엇입니까?

Google의 DeepMind Atari 논문을 읽었으며 "경험 재생"개념을 이해하려고합니다. 경험 재생은 다른 많은 강화 학습 논문 (특히 AlphaGo 논문)에서 나오므로 어떻게 작동하는지 이해하고 싶습니다. 다음은 일부 발췌문입니다. 먼저, 우리는 데이터를 무작위 화하는 경험 재생이라고 불리는 생물학적으로 영감을 얻은 메커니즘을 사용하여 관찰 순서의 상관 관계를 제거하고 데이터 분포의 변화를 부드럽게합니다. 그런 다음이 …

19 reinforcement-learning q-learning

4

휴먼 데이터베이스가없는 AlphaGo (및 강화 학습을 사용하는 다른 게임 프로그램)

나는 그 주제의 전문가가 아니며, 나의 질문은 아마도 매우 순진합니다. 그것은 AlphaGo 프로그램에서 사용되는 강화 학습의 힘과 한계를 이해하기위한 에세이에서 나옵니다. AlphaGo 프로그램은 무엇보다도 (몬테카를로 나무 탐색 등) 거대한 인간 네트워크 게임에서 훈련 된 신경망을 사용하여 만들어졌으며,이 게임은 스스로 여러 번 프로그램. 이제 우리는 휴먼 데이터베이스없이 그러한 프로그램을 구축하려고 시도했을 …

13 reinforcement-learning

1

간단한자가 운전 RC 자동차에 대한지도 학습과 강화 학습

나는 재미를 위해 원격 제어식자가 운전 차량을 만들고 있습니다. 온보드 컴퓨터로 Raspberry Pi를 사용하고 있습니다. 저는 자동차 주변 환경에 대한 피드백을 위해 Raspberry Pi 카메라 및 거리 센서와 같은 다양한 플러그인을 사용하고 있습니다. 비디오 프레임을 텐서로 전환하기 위해 OpenCV를 사용하고 있으며 Google의 TensorFlow를 사용하여 도로 경계와 장애물을 배우기 위해 복잡한 …

12 reinforcement-learning supervised-learning

3

파이썬에 적합한 기본 언어 모델이 있습니까?

응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

협동 강화 학습

이미 수익 극대화를 목표로 동적 가격 책정 문제를 해결하는 단일 에이전트에 대해 기능적인 구현이 있습니다. 그러나 내가 함께 일하고있는 문제는 서로를 대체하는 여러 가지 다른 제품과 관련이 있으므로 독립적 인 학습자에게 모두 동적으로 가격을 책정하는 것은 하나의 가격이 다른 사람의 보상에 영향을 미치기 때문에 올바르지 않은 것 같습니다. 목표는 각 …

10 machine-learning reinforcement-learning

2

체스에서 시간적 차이 구현

알파-베타 가지 치기 알고리즘과 재료, 왕의 안전성, 이동성, 폰 구조 및 갇힌 조각 등을 사용하여 위치를 평가하는 평가 기능을 사용하는 체스 프로그램을 개발하고 있습니다. 에서 파생 된 에프( p ) = w1⋅ 재료 + w2⋅ kingsafety + 승삼⋅ 이동성 + w4⋅ 폰 구조형 + w5⋅ 갇힌 조각에프(피)=승1⋅재료+승2⋅왕의 안전+승삼⋅유동성+승4⋅폰 구조+승5⋅갇힌 조각f(p) …

10 machine-learning algorithms reinforcement-learning

4

강화 학습에 관한 책

나는 강화 학습을 꽤 오랫동안 이해하려고 노력했지만 어떻게 든 그리드 세계 문제를 해결하기 위해 강화 학습을위한 프로그램을 작성하는 방법을 시각화 할 수 없습니다. 강화 학습에 대한 명확한 개념을 세우는 데 도움이 될 교과서를 제안 해 주시겠습니까?

10 machine-learning books reinforcement-learning

1

시계열 예측에 강화 학습을 적용 할 수 있습니까?

9 time-series reinforcement-learning forecasting

«reinforcement-learning» 태그된 질문