액션 당 하나의 출력 유닛이있을 때 신경망을 이용한 Q- 러닝은 얼마나 효율적입니까?

배경 :
강화 학습 과제에서 신경망 Q- 값 근사법을 사용하고 있습니다. 접근법은 이 질문 에서 설명한 것과 정확히 동일 하지만 질문 자체는 다릅니다.

이 접근법에서 출력의 수는 우리가 취할 수있는 조치의 수입니다. 간단한 말로, 알고리즘은 다음과 같습니다. 행동 A를 수행하고, 보상을 탐색하고, 가능한 모든 행동에 대한 Q 값을 예측하도록 NN에 요청하고, 최대 Q 값을 선택하고, 특정 행동 A에 대한 Q를로 계산하십시오 R + max(new_state_Q). 예측 된 Q 값 중 하나만로 대체하여 모형을 적합시킵니다 R + max(new_state_Q).

질문 : 출력 수가 많은 경우이 방법이 얼마나 효율적입니까?

시도 : 우리가 취할 수있는 10 가지 행동이 있다고 가정 해 봅시다. 각 단계에서 우리는 모델이 10 세의 값을 예측하도록 요청합니다. 모델의 초기 나이 에이 예측은 총 혼란입니다. 그런 다음 출력 값 1 개를 수정하고이 값에 모델을 맞 춥니 다.

나는이 접근법이 얼마나 좋은지에 대해 두 가지 반대 생각을 가지고 있으며 어느 것이 옳은지를 결정할 수 없습니다.

한 관점에서, 우리는 임의의 데이터에 대해 각 뉴런을 9 번 훈련하고 실제 가치에 가까운 데이터에 대해 한 번만 훈련합니다. NN이 상태 S에서 조치 A에 대해 5를 예측했지만 실제 값이 -100이면 NN을 값 5에 9 번, 값 -100에 1 회 맞 춥니 다. 미쳤어
다른 관점에서 신경망 학습은 오류의 역전 파로 구현 되므로 모델이 5를 예측하고 5를 훈련하면 오류가 0이므로 새로운 것을 배우지 않습니다. 가중치는 건드리지 않습니다. . 우리가 -100을 계산하여 모델에 맞출 때만 무게 재 계산을 수행합니다.

어떤 옵션이 맞습니까? 내가 고려하지 않은 다른 것이 있습니까?

업데이트 : "효율적인"이란 하나의 산출물-예측 보상을 가진 접근법과 비교하는 것을 의미합니다. 물론,이 경우 조치는 입력의 일부가됩니다. 따라서 접근 # 1은 어떤 상태를 기반으로 모든 행동을 예측하고 접근 # 2는 어떤 상태에서 취한 특정 행동을 예측합니다.

— 세르히
소스

"이 접근법은 얼마나 효율적입니까?"라는 현재 형식으로이 질문에 대한 명확한 대답을하기가 매우 어렵습니다. 글쎄, 그건 ... 무엇에 비해? 더 효율적일 수도 있고 그렇지 않을 수도있는 대체 방법은 무엇입니까?

— Dennis Soemers

안녕하세요 @DennisSoemers. 질문 해 주셔서 감사합니다. 내 게시물을 업데이트했습니다. 기본적으로 대체 접근법은 하나의 결과물-보상을 가지고 있습니다. 그리고 모든 가능한 행동에 대한 추가 N 입력. 주요 접근 방식은 INPUT (상태) 및 OUTPUT (N 조치에 대한 N 보상)입니다. 대안은 I (State + Action) 및 O (Reward)입니다.

— Serhiy

따라서 비교하고자하는 두 가지 옵션은 다음과 같습니다.

입력 = 상태 표현, 출력 = 동작 당 1 노드
입력 = 상태 표현 + 원 핫 액션 인코딩, 출력 = 1 노드

내 직관에 따라 두 옵션 사이에 표현력이나 학습 속도 (반복 측면)에 큰 차이가 있는지 의심됩니다.

표현력을 위해 첫 번째 옵션은 입력 근처에 약간``작은 ''네트워크를 제공하고 출력 근처에``더 넓은 ''네트워크를 제공합니다. 예를 들어 어떤 이유로 든 입력 노드에 더 많은 가중치를 두는 것이 유리한 경우 첫 번째 숨겨진 레이어 (입력에 가까운)를 조금 더 크게 만들어서 얻을 수 있습니다.

학습 속도에 관해서는 기본적으로 출력 중 하나에 대해서만 정확한 학습 신호 만 있고 다른 것은 아닙니다. 두 번째 옵션을 사용하면 입력 노드에 연결된 가중치에 대해 정확히 동일하게 말할 수 있으므로 큰 차이가 의심됩니다.

내가 언급했듯이, 위의 모든 것은 내 직감을 기반으로하지만 그것에 대해 더 신뢰할만한 참조를 보는 것이 흥미로울 것입니다.

첫 번째 옵션에서 볼 수있는 중요한 이점 중 하나는 계산 속도입니다. 선택할 조치를 결정하기 위해 모든 조치에 대한 을 계산하려고한다고 가정 하십시오. 단일 순방향 전송은 네트워크를 통해 한 번에 모든 제공 하며, 개별 순방향 통과 (크기 의 동작 집합에 대해) 보다 훨씬 계산적으로 효율적 입니다. $Q$ $Q$ $n$ $n$

— 데니스 수메르
소스