解决行为空间连续、观测受限、随机策略的强化学习等问题。
在基于策略的强化学习中,策略 π \pi π 可以被描述为一个包含参数 θ \theta θ 的函数: 该函数确定了在给定的状态和一定的参数设置下,采取任何可能行为的概率,是一个概率密度函数。在实际应用这个策略时,选择最大概率对应的行为或者以此为基础进行一定程度的采样探索。参数 θ \theta θ 决定了策略的具体形式。因而求解基于策略的学习问题转变为如何确定策略函数的参数 θ \theta θ 。通过设计一个基于参数 θ \theta θ 的目标函数J( θ \theta θ ),通过相应的算法寻找最优参数。 J( θ \theta θ )可以设计为使用策略 π θ \pi_\theta πθ 时的初始状态价值,也就是初始状态收获的期望: 有些环境是没有明确的起始状态和终止状态,个体持续的与环境进行交互。在这种情况下使用平均价值或者每一时间步的平均奖励来设计策略目标函数: 其中, d π θ ( s ) d^{\pi_\theta}\left ( s\right ) dπθ(s)是基于策略 π θ \pi_θ πθ 生成的马尔科夫链关于状态的静态分布。与价值函数近似的目标函数不同,策略目标函数的值越大代表着策略越优秀。可以使用与梯度下降相反的梯度上升来求解最优参数: 参数θ使用下式更新: 假设现在有一个单步马尔科夫决策过程,对应的强化学习问题是个体与环境每产生一个行为交互一次即得到一个即时奖励 r = R s , a r=R_{s,a} r=Rs,a,并形成一个完整的状态序列。策略目标函数为: 对应的策略目标函数的梯度为: 上述公式建立了策略梯度与分值函数以及行为价值函数之间的关系。分值函数的在基于策略梯度的强化学习中有着很重要的意义。后面通过两个常用的基于显性特征组合的策略来解释说明。