以上来自wikipedia。
无模型深度强化学习算法可分为两类:
一类是直接根据策略梯度更新策略,获得最优策略;
一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。
上一篇:3.17 让你的小红书笔记排名更靠前的六个方法【玩赚小红书】
下一篇:数据图表软件-FineReport控件简介