강화 학습에서 선형 함수 근사법은 큰 상태 공간이 존재할 때 종종 사용됩니다. 조회 테이블을 사용할 수 없게 될 때.
의 형태 선형 함수로 근사 값으로 주어진다Q -
Q ( s , a ) = w1에프1( s , a ) + w2에프2( s , a ) + ⋯ ,
여기서 는 가중치이고 f i 는 피쳐입니다.승나는에프나는
기능은 사용자가 미리 정의합니다. 내 질문은 가중치가 어떻게 할당됩니까?
나는 읽기 / 일부 강의 슬라이드를 다운로드 한 기능 근사치 학습. 그들 대부분은 선형 회귀에 관한 슬라이드를 가지고 있습니다. 슬라이드 일 뿐이므로 불완전한 경향이 있습니다. 두 주제 사이의 연결 / 관계가 무엇인지 궁금합니다.Q -