问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

Deterministic Policy Gradient Algorithms 笔记

发布网友 发布时间:2023-07-27 05:01

我来回答

1个回答

热心网友 时间:2024-12-02 19:40

Policy gradient算法在增强学习中有非常多的应用,尤其是动作空间连续的情况。通常我们使用一个函数来表示策略 。通常policy gradient会从随机策略中采样,然后优化策略来得到更高的reward。
这篇论文中,作者考虑的是deterministic policies。作者证明,deterministic policy是随机policy的极限,当policy variance趋于0的时候。
为了能够探索足够多的state和动作空间,随机policy是必须的。因此,为了使得deterministic policy gradient有令人满意的探索的效果,作者使用了off-policy learning 算法。简单地说,根据随机behavior policy来选择动作,但是学习deterministic target policy。作者使用deterministic policy gradient来学习一个actor-critic算法,用于估计action-value。

policy gradient算法的思路就是朝着performance gradient 调整policy的参数。如下:

Actor-critic算法包含一个actor,它根据上面的公式调整参数。但是它不知道 。因此,增加一个critic还学习 , 作为真实 的一个估计,它通常会使用一个policy evalution算法,例如TD learning。
通常情况下,使用critic会导致偏差(因为估计的值和真实值之间有误差),但是如果 1) , 2) 最小化MSE:

有时候我们需要计算的策略梯度并不对应采集的样本的策略 ,这就是off-policy。在这种问题中,performance object也就是 通常需要修改

大多数的model-free 增强学习算法基于policy iteration:交替地进行policy evaluation 和 policy improvement。Policy evaluation用于估计action-value函数: 或者 。Policy improvement用于根据当前的action-value来更新策略,例如贪婪策略。
在动作空间连续的时候,就很难进行贪婪策略,因为得不到全局最大值。因此,一个简单,计算要求不高的代替是将策略向 的梯度移动。对于每一个状态 ,policy parameters 使用梯度 进行更新。取平均得到下面公式:

考虑一个deterministic policy ,我们可以定义performance objective ,probability distribution ,discounted state distribution ,将performance objective写为:

在这一部分作者证明来deterministic policy gradient 是stochastic policy gradient的极限情况。

有了deterministic policy gradient theorem,接下来推导on-policy off-policy actor-critic algorithms。

Performance objective of target policy, averaged over the state distribution of the behavior policy

求导

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
房产证是房管局具体哪个部门在办理 电脑绿灯闪烁无法开机电脑主机绿灯一直亮但是开不开机没有反应_百度... 联想19寸显示器出现绿色一闪一闪 显示器绿灯闪烁,没图像 为什么我的联想显示器的指示灯总是闪烁??? 梦见一个小乞丐撒尿到头来的预兆 国服3.22战斗贼如何打出《高》DPS 国服3.22盗贼天赋,武器选择 魔兽世界3.22版本,战斗贼输出循环,请详细一点儿,谢谢,还有,红色宝石全部... 当老板需要具备哪些品质和能力 念经时紫菜可以吃吗? 置新颜可靠吗 0岁宝宝 可以买重疾险么? 温格要离开阿森纳了? 平安新重疾平安嘉护定期保费合理吗?0岁宝宝投保一年多少钱?_百度... 脸上有皱纹,是超声刀好,还是热玛吉好,还有个射频的,选哪个??? 定期少儿重疾险性价比怎么样?贵吗? 0岁 要投保重疾险吗? 电视剧《战雷》中官兵们说话都是哪里的口音? ...都有好多黑黑的颗粒状东西,每天都得清理好恶心,怎么处理啊_百度知 ... 烟道止逆阀不锈钢好还是塑胶的好? 梦见亲人死了但我认为是假死的 西方龙和中国龙有什么区别? 定西开车到阿坝藏族羌族自治州树正沟花费时间 烟雨江湖腊八粥有什么用 汽车打不着是为什么? 仙桃自驾到阿坝藏族羌族自治州树正沟会经过哪些地方 ]我国啤酒最早出现 求英语高手翻译一片文章。中译英,悬赏100。留下邮箱,我发过去。谢谢... 掉趣的网络解释掉趣的网络解释是什么 策略梯度(Policy Gradient) 打喷嚏应该注意什么?打喷嚏对人体有哪些好处? 梦见有点青色花纹的蛇的预兆 桫椤属于什么植物类型 用proteus做单片机、ADC0809仿真的时候提示这个,是怎么回事???_百度... proteus的AT89C51+ADC0809仿真出不来读取的数据,跪求大神帮忙 proteus仿真ADC0809时怎么会出现这情况,都是黑方块,程序有问题?_百度... 桫椤属于什么植物类型? 访谈过程中错误的做法是()。 桫椤属于什么类植物 一个算术题问如果今天是周-,那么7天后还是周一,从今天起第14天是周... 博尔塔拉职业技术学院,小学教育可以专升本吗 博尔塔拉职业技术学院专升本概率 学了外星人的语言就能预知未来吗? 对于第Ⅱ类近中位颊侧低位阻生智齿,下列描述错误的是 竹制二胡杆好不好? 竹子二胡码的特点 英语作文《关于一名交流生到荚国学习和生活的一篇作文》 (1/3)一篇初三水平的英语作文。内容如下: 假如你是小聪,在参加中英夏 ... 从大荔县城到临汾市区怎么走?大巴、火车都可。