배경 :
강화 학습 과제에서 신경망 Q- 값 근사법을 사용하고 있습니다. 접근법은 이 질문 에서 설명한 것과 정확히 동일 하지만 질문 자체는 다릅니다.
이 접근법에서 출력의 수는 우리가 취할 수있는 조치의 수입니다. 간단한 말로, 알고리즘은 다음과 같습니다. 행동 A를 수행하고, 보상을 탐색하고, 가능한 모든 행동에 대한 Q 값을 예측하도록 NN에 요청하고, 최대 Q 값을 선택하고, 특정 행동 A에 대한 Q를로 계산하십시오 R + max(new_state_Q)
. 예측 된 Q 값 중 하나만로 대체하여 모형을 적합시킵니다 R + max(new_state_Q)
.
질문 : 출력 수가 많은 경우이 방법이 얼마나 효율적입니까?
시도 : 우리가 취할 수있는 10 가지 행동이 있다고 가정 해 봅시다. 각 단계에서 우리는 모델이 10 세의 값을 예측하도록 요청합니다. 모델의 초기 나이 에이 예측은 총 혼란입니다. 그런 다음 출력 값 1 개를 수정하고이 값에 모델을 맞 춥니 다.
나는이 접근법이 얼마나 좋은지에 대해 두 가지 반대 생각을 가지고 있으며 어느 것이 옳은지를 결정할 수 없습니다.
- 한 관점에서, 우리는 임의의 데이터에 대해 각 뉴런을 9 번 훈련하고 실제 가치에 가까운 데이터에 대해 한 번만 훈련합니다. NN이 상태 S에서 조치 A에 대해 5를 예측했지만 실제 값이 -100이면 NN을 값 5에 9 번, 값 -100에 1 회 맞 춥니 다. 미쳤어
- 다른 관점에서 신경망 학습은 오류의 역전 파로 구현 되므로 모델이 5를 예측하고 5를 훈련하면 오류가 0이므로 새로운 것을 배우지 않습니다. 가중치는 건드리지 않습니다. . 우리가 -100을 계산하여 모델에 맞출 때만 무게 재 계산을 수행합니다.
어떤 옵션이 맞습니까? 내가 고려하지 않은 다른 것이 있습니까?
업데이트 : "효율적인"이란 하나의 산출물-예측 보상을 가진 접근법과 비교하는 것을 의미합니다. 물론,이 경우 조치는 입력의 일부가됩니다. 따라서 접근 # 1은 어떤 상태를 기반으로 모든 행동을 예측하고 접근 # 2는 어떤 상태에서 취한 특정 행동을 예측합니다.