신경망을 이용한 Q- 러닝에 관한 질문


14

에 설명 된대로 Q-Learning을 구현했습니다.

http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf

약. Q (S, A) 다음과 같은 신경망 구조를 사용합니다.

  • 활성화 시그 모이 드
  • 동작 뉴런에 대한 입력, 입력 수 + 1 (모든 입력의 크기가 0-1 임)
  • 출력, 단일 출력. Q- 값
  • M 개의 숨겨진 레이어 N 개
  • 탐색 방법 임의 0 <rand () <propExplore

다음 공식을 사용하여 각 학습 반복에서

여기에 이미지 설명을 입력하십시오

Q-Target 값을 계산 한 다음 다음을 사용하여 오류를 계산합니다.

error = QTarget - LastQValueReturnedFromNN

신경망을 통해 에러를 다시 전파한다.

Q1, 나는 올바른 길을 가고 있습니까? 각 동작마다 하나의 출력 뉴런으로 NN을 구현하는 논문을 보았습니다.

Q2, 내 보상 기능은 -1과 1 사이의 숫자를 반환합니다. 활성화 기능이 S 자형 (0 1) 일 때 -1과 1 사이의 숫자를 반환해도 괜찮습니까?

Q3, 충분한 훈련 사례가 주어진이 방법에 대한 나의 이해로부터 최적의 정책 와이트를 찾기 위해 격리되어야 하는가? XOR에 대한 훈련을 할 때 때때로 2k 반복 후에 그것을 배우고 때로는 40k 50k 반복 후에도 배우지 않습니다.


호기심으로, 네트워크에 동시에 두 가지를 공급하기 위해 상태 입력을 작업 입력과 어떻게 결합 했습니까? 이 코드 덩어리를 공개적으로 사용할 수 있습니까? 감사합니다!
Pedro Lopes

답변:


9

Q1. 당신은 확실히 올바른 길을 가고 있지만, 몇 가지 변화가 엄청나게 도움이 될 수 있습니다. 어떤 사람들은 액션 당 하나의 출력 유닛을 사용하므로 액션 선택을 위해 네트워크를 한 번만 실행하면됩니다 (가능한 각 액션마다 한 번씩 인터넷을 실행해야 함). 그러나 이것은 학습과 관련하여 차이를 가져서는 안되며 모델을 크게 확장하려는 경우에만 구현할 가치가 있습니다.

Q2. 일반적으로 사람들 은 신경망 의 마지막 계층 , 특히 강화 학습에 선형 활성화 기능을 사용합니다 . 여기에는 여러 가지 이유가 있지만 가장 적절한 것은 선형 활성화 함수를 사용하여 전체 범위의 실수를 출력으로 나타낼 수 있다는 것입니다. 따라서, 당신은 당신의 작업에 대한 보상에 대한 한계를 모르더라도, 당신은 여전히 ​​그 범위를 대표 할 수 있다고 보장됩니다.

Q3. 불행하게도, 신경망 (및 일반적으로 비선형 함수 근사)을 강화 학습과 결합하는 이론적 보증은 거의 존재하지 않습니다. 수렴 주장의 종류를 언급 할 수있는 몇 가지 더 멋진 버전의 강화 학습 (주로 Sutton 연구소에서 제공)이 있지만, 실제로 이러한 알고리즘이 '야생적으로'적용되는 것을 본 적이 없습니다. 그 이유는 뛰어난 성능을 보장 할 수 없지만 일반적으로 하이퍼 파라미터와 초기 조건에주의를 기울여 실제로 얻을 수 있기 때문입니다.

일반적으로 신경망에 대해 언급 할 마지막 요점 : 숨겨진 계층이 많은 네트워크에는 시그 모이 드 활성화 기능을 사용하지 마십시오! 그들은 '소멸 구배'라는 문제로 저주를 받았습니다. 오류 신호는 이전 계층에 거의 도달하지 않습니다 (함수의 미분을 살펴보면 이것이 왜 그런지를 분명히해야합니다). 대신 정류 선형 장치 (RELU) 또는 '소프트 플러스'장치를 사용하십시오. 일반적으로 딥 네트워크에서 훨씬 더 나은 성능을 나타냅니다.

강화 학습으로 훈련 된 신경망의 훌륭한 구현에 대해서는이 백서를 참조하십시오.

Mnih, Volodymyr 등 "심층 강화 학습으로 아타리 연주하기." arXiv 프리 프린트 arXiv : 1312.5602 (2013).


0

활성화 기능의 경우 maxout도 잘 작동합니다. 적절한 트레이너를 사용하는 것은 딥 네트워크에 중요합니다. 다양한 트레이너를 시도했지만 RMSprop를 고수하기로 결정했습니다.


1
@ user3355911 사이트에 오신 것을 환영합니다. 이것은 아마도 대답이 너무 희박 할 것입니다. 당신은 그것을 확장하고 더 육체로 할 수 있습니까?
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.