Q- 러닝에서 문자 Q가 선택된 이유는 무엇입니까?


17

Q- 러닝 이름으로 Q를 선택한 이유는 무엇입니까?

대부분의 문자는 는 정책을 의미 하고 v 는 가치를 의미하는 것과 같이 약어로 선택됩니다 . 그러나 나는 Q가 어떤 단어의 약어라고 생각하지 않습니다.πv


1
은유 적 이해에서 Q는 주어진 상태의 행동에 대한 수량 (보상, 비용 또는 기타 최적화 된 것)을 연결하는 함수입니다.
knk

1
@sycorax의 원래 질문은 Q- 러닝에 대한 이해를 암시하고 설명을 제공하기 위해 컨텍스트를 추가하는 데 도움이 될 것입니다. 접지를 설정하지 않으면 설명없이 OP가 손실됩니다.
knk

은유 적 Q = 수량이 도움이됩니까? 나는 그것이 주어진 상태의 행동의 정량화로 생각합니다
knk

답변:


35

모두를 실망시켜 미안하지만 Q는 아무것도지지 않습니다 :)

Q- 러닝은 1989 년 Watkins의 PhD 논문 에서 제안되었습니다 (96 페이지 참조). 해당 페이지의 방정식에서 Q는 각 단계에서 특정 방식으로 업데이트됩니다. Q는 주어진 상태에서 예상 되는 조치로부터의 복귀 입니다 (46 페이지의 Q 정의 참조). 수익은 경제 또는 게임 이론적 의미에서, 즉 확률 가중 보상을 할인하는 것으로, 함수로부터의 수익과 같은 컴퓨터 과학 용어가 아닙니다.

그가 어떻게 확률을 위해 P를, 보상을 위해 R을 사용했는지를 보니, 그는 수익을 위해 Q를 잡았습니다. 그게 다야. 문자 Q의 선택에 대한 더 깊은 의미는 없습니다.


3
어떤 깊은 의미가없는 그러나 그것은 이다 (P와 알파벳 R과 Q의 맞)과가 약자 의미 뭔가 .
Sextus Empiricus

2
@MartijnWeterings 전혀 의미가 없습니다. 의미 론적 고려 사항없이 순전히 구문 적으로 선택하는 문자입니다.
David Richerby

물론 의미 론적 고려 사항이 거의 없을 수 있습니다 (라틴어 또는 그리스어 문자, 알파벳의 다른 위치에있는 문자 또는 대문자 대 소문자 간의 차이가 구문과 의미론 사이에 회색 영역을 형성 할 수 있으므로 논의 될 수 있음). 나는 문자의 형태 (어떤 것은 임의적 임)가 변수 / 매개 변수의 의미를 확장시키기 때문에 Q의 선택을 '의미있는'로 간주합니다. 의미는 편지의 선택과 관련이 있습니다. u 또는 v 또는 i, j, k 또는 x, y, z 또는 선택한 경우에는 좋은 선택이 없었을 것 입니다. α,β,γ
Sextus Empiricus

@MartijnWeterings, Q는 또한 대기열 처럼 들리는데 , 이는 약간의 관련 의미를 가져옵니다
Aksakal

@ Aksakal, 그것은 Q의 사용을 강화했을 수도 있지만, 나는 그것이 강력하다고 생각하지 않습니다. 나는이 주제에 대해 많이 알지 못하지만 그 논문에 대한 간단한 개요에서 문자 i R i P i 또는 i V i P i 와 같은 수량에 사용 되었다는 것은 매우 타당합니다 . 결국 '행동 가치'와 같은 '일부 이름'이 주어졌지만, 그 논문에 사용 된 문자는 알파벳에 훨씬 더 충실한 것으로 보입니다. 예를 들어 , 함수 x y 변수 v y 값 함수 V u에 대해 f g h 는 근사치입니다. 등QiRiPiiViPif g hx yV U
Sextus Empiricus

0

Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

Q


2
논문을 읽고 기대되는 수익의 맥락에서 "품질"이 어떻게 의미가 있는지 말해주세요
Aksakal

나는 당신에 동의하지만, 논문은 Watkins가 Andy와 많은 것들에 관해 상담 한 후에 쓰여졌습니다. 앤디는 당신이 생각하는 것보다 더 나은 아이디어를 가지고 있었을 것입니다.
Ameet Deshpande

품질은 학습에서 독특한 개념으로 존재하지도 않습니다. 물론 영어에서 일반적인 의미로 단어를 사용할 수 있습니다. 반면, 기대 수익률은 게임 이론에서 매우 잘 정의되어 있으며 품질과 같은 모호한 개념을 첨부하여 희석시킬 필요가 없습니다. 품질을 최대화하지 않고 적절한 확률 측정 하에서 할인 된 보상을 최대화하고 있습니다. 좀 더 넓고 싶다면 유틸리티를 최대화 할 수 있습니다.
Aksakal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.