시간차학습1 Comparison with Tabular Methods 이번 포스팅에서는 강화학습의 가치함수를 추정하고 순차적 의사결정을 할 수 있는 tabular methods (DP ((1), (2)), MC ((1), (2)), TD)을 비교해보도록 하겠습니다. Update Rules 먼저 핵심이 되는 업데이트 규칙을 살펴보겠습니다. 하기 업데이트 규칙은 control에 대한 것만 기술했습니다. 구체적인 내용 및 prediction은 위에 걸어둔 링크를 타고 들어가면 확인할 수 있습니다. [ Dynamic Programming ] v(s)←maxa∑s′,rP(s′,a|s,a)[r+γv(s′)][ .. 2019. 12. 20. 이전 1 다음