TD 학습 및 DP의 주요 문제점은 단계 업데이트가 학습 매개 변수의 초기 조건에 편향 되어 있다는 것입니다. 부트 스트래핑 프로세스는 일반적으로 후자의 현재 추정치에 관계없이 후속 값 Q (s ', a')에서 함수 또는 조회 Q (s, a)를 업데이트합니다. 학습을 시작할 때 분명히 이러한 추정치에는 실제 보상이나 상태 전환 정보가 포함되어 있지 않습니다.
학습이 의도 한대로 작동하면 편향이 여러 반복에 걸쳐 무증상으로 감소합니다. 그러나 편견은 특히 정책 외 방법 (예 : Q 학습) 및 함수 근사기를 사용할 때 심각한 문제를 일으킬 수 있습니다. 이 조합은 Sutton & Barto 에서 치명적인 트라이어드 라고 불릴 수 없습니다 .
몬테 카를로 제어 방법은 Q (s, a)가 무엇인지에 대한 실제 샘플을 사용하여 각 업데이트가 이루어 지므로 이러한 편견을 겪지 않습니다. 그러나 Monte Carlo 방법은 분산이 높을 수 있으므로 TD에 비해 같은 수준의 학습을 달성하려면 더 많은 샘플이 필요합니다.
실제로, 치명적인 트라이어드 의 문제를 극복 할 수 있다면 TD 학습은보다 효율적으로 학습하는 것으로 보입니다 . 경험 재생 및 단계별 "냉동 된"평가 기 사본을 사용한 최근 결과는 문제를 해결하는 해결 방법을 제공합니다. 예를 들어 Atari 게임에 대한 DQN 학습자가 구축 된 방식입니다.
TD와 Monte Carlo 사이에는 중간 지점이 있습니다. 단일 단계 TD에서 Monte Carlo의 완전한 에피소드 실행에 이르기까지 다양한 길이의 궤적을 결합한 일반화 된 방법을 구성하고 결합 할 수 있습니다. 가장 일반적인 변형은 TD (λ) 학습, 어디서 λ 의 매개 변수입니다 0 (효과적으로 단일 단계 TD 학습) 1(효과적으로 Monte Carlo 학습이지만 지속적인 문제에서 사용할 수있는 좋은 기능이 있습니다). 일반적으로 사이의 값0 과 1 많은 하이퍼 파라미터와 마찬가지로 가장 효율적인 학습 에이전트를 만듭니다. 사용하기 가장 좋은 값은 문제에 따라 다릅니다.
정책 기반 방법과 달리 가치 기반 방법을 사용하는 경우 일반적으로 TD 학습이 더 많이 사용되거나 TD (λ)와 같은 TD / MC 조합 방법이 훨씬 더 좋습니다.
MC의 "실용적 이점"측면에서? 몬테 카를로 학습은 개념적으로 간단하고 강력하며 구현하기 쉽지만 종종 TD보다 느립니다. 나는 일반적으로 학습 컨트롤러 엔진에 사용하지 않을 것입니다 (단순한 환경을 위해 무언가를 구현하기 위해 서두르지 않는 한). 예를 들어 여러 에이전트를 비교하기 위해 정책 평가를 위해 심각하게 고려할 것입니다. 편향되지 않은 측정은 테스트에 중요합니다.