지도 학습은 강화 학습의 하위 집합입니까?


답변:


24

지도 학습 문제가 동등한 강화 학습 문제로 제기 될 수 있다는 것은 사실입니다. 상태는 입력 데이터에 해당합니다. 동작이 출력 예측과 일치하게합니다. 지도 학습에 사용되는 손실 기능의 부정으로 보상을 정의하십시오. 기대되는 보상을 극대화하십시오. 대조적으로, 강화 학습 문제는 일반적으로지도 학습 문제로 제기 될 수 없습니다. 따라서 이러한 관점에서지도 학습 문제는 강화 학습 문제의 하위 집합입니다.

그러나 일반적인 강화 학습 알고리즘을 사용하여지도 학습 문제를 해결하려는 것은 무의미합니다. 이 모든 것은 문제를보다 쉽게 ​​해결할 수있는 구조를 버리는 것입니다. 강화 학습에서는지도 학습과 관련이없는 다양한 문제가 발생합니다. 또한지도 학습은 일반 강화 학습 환경에 적용되지 않는 접근 방식의 이점을 활용할 수 있습니다. 따라서 필드간에 공통된 기본 원칙과 공유 기법이 있지만 일반적으로 감독 학습이 일종의 강화 학습으로 논의되는 것은 아닙니다.

참고 문헌

Barto and Dietterich (2004) . 강화 학습 및지도 학습과의 관계.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.