发布网友 发布时间:2023-07-27 05:01
共1个回答
热心网友 时间:2024-12-02 19:40
Policy gradient算法在增强学习中有非常多的应用,尤其是动作空间连续的情况。通常我们使用一个函数来表示策略 。通常policy gradient会从随机策略中采样,然后优化策略来得到更高的reward。
这篇论文中,作者考虑的是deterministic policies。作者证明,deterministic policy是随机policy的极限,当policy variance趋于0的时候。
为了能够探索足够多的state和动作空间,随机policy是必须的。因此,为了使得deterministic policy gradient有令人满意的探索的效果,作者使用了off-policy learning 算法。简单地说,根据随机behavior policy来选择动作,但是学习deterministic target policy。作者使用deterministic policy gradient来学习一个actor-critic算法,用于估计action-value。
policy gradient算法的思路就是朝着performance gradient 调整policy的参数。如下:
Actor-critic算法包含一个actor,它根据上面的公式调整参数。但是它不知道 。因此,增加一个critic还学习 , 作为真实 的一个估计,它通常会使用一个policy evalution算法,例如TD learning。
通常情况下,使用critic会导致偏差(因为估计的值和真实值之间有误差),但是如果 1) , 2) 最小化MSE:
有时候我们需要计算的策略梯度并不对应采集的样本的策略 ,这就是off-policy。在这种问题中,performance object也就是 通常需要修改
大多数的model-free 增强学习算法基于policy iteration:交替地进行policy evaluation 和 policy improvement。Policy evaluation用于估计action-value函数: 或者 。Policy improvement用于根据当前的action-value来更新策略,例如贪婪策略。
在动作空间连续的时候,就很难进行贪婪策略,因为得不到全局最大值。因此,一个简单,计算要求不高的代替是将策略向 的梯度移动。对于每一个状态 ,policy parameters 使用梯度 进行更新。取平均得到下面公式:
考虑一个deterministic policy ,我们可以定义performance objective ,probability distribution ,discounted state distribution ,将performance objective写为:
在这一部分作者证明来deterministic policy gradient 是stochastic policy gradient的极限情况。
有了deterministic policy gradient theorem,接下来推导on-policy off-policy actor-critic algorithms。
Performance objective of target policy, averaged over the state distribution of the behavior policy
求导