策略梯度(Policy Gradient)
发布网友
发布时间:2023-07-27 05:01
我来回答
共1个回答
热心网友
时间:2024-12-02 19:58
强化学习方法主要分为两类,一类是Model-based,另外一种是Model free,如图所示:
而Model Free中又包含两种方法,其中一种是基于策略的角度考虑的方法,而Policy Gradient则是Policy based的基础方法。Value based的典型方法则是Q-learning方法,Actor-Critic则是Value based和Policy based方法相结合,它拥有两个Networks,分别是Actor和Critic,Actor使用Policy based的方法,Critic使用的是Value based的方法。
公式如下所示:
推导过程如下所示:
其中,s代表state,a代表action,pi代表我们的policy策略,也就是一个policy network,输入是state,输出是一个action,R代表Reward。
该Deep network的框架如下所示:
该网络输入为当前的状态(如游戏画面,五子棋的盘面等),输出则为各个Action的概率(假设总共有3个Actions)。因此,Policy Gradient公式可以理解为在当前State的状态下,采取不同Action的概率乘以其相应的权重,也就是其Reward。
1. Reinforcement Learning An Introction
2. 李宏毅.DRL Lecture1
3. https://blog.csdn.net/qq_30615903/article/details/80747380