RL学习笔记-贝尔曼最优方程(BOE)
学习笔记来自西湖大学的RL课程:https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning
回顾与引入
贝尔曼方程
贝尔曼方程描述了在给定策略 下,状态价值函数
或 状态-行为价值函数
的自洽性(self-consistency)关系。
贝尔曼最优方程
贝尔曼最优方程描述了在最优策略 下,最优状态价值函数
或 最优状态-行为价值函数的自洽性关系。
这就引入了几个问题:
- 什么叫最优?
- 存在性:最优策略一定存在吗?
- 唯一性:最优策略是唯一的吗?
- 随机性:最优策略是确定性的还是随机性的?
- 求解算法:如何计算最优状态值和最优策略?
最优的定义
当且仅当对于所有状态 s∈S 和任何其他策略 π,都满足 vπ∗(s)≥vπ(s) 时,策略 π∗ 被认为是最优策略。最优策略所对应的状态价值即为最优状态价值。
贝尔曼最优方程(BOE)
对于每一个 ,贝尔曼最优方程(BOE)的元素形式表示为:
其中 和
是待求解的未知变量,并且
然而,要完全理解这个方程并非易事。例如,它包含了两个未知变量:状态值v(s) 和策略π(a∣s)。这可能会让初学者感到困惑,不知道如何从一个方程中求解两个未知变量。
但实际上事可以解的比如,考虑两个未知变量 和
,它们满足以下方程:
压缩映射定理
由于贝尔曼最优方程(BOE)可以表示为非线性方程 ,我们接下来介绍压缩映射定理来分析它。压缩映射定理是分析一般非线性方程的强大工具,它也被称为不动点定理。
考虑一个函数 ,其中
且
。如果满足以下条件,则称点
为不动点:
上述方程的解释是 的映射就是它本身。这就是为什么
被称为“固定”的原因。如果存在
使得:
对于任意 ,函数
则是一个压缩映射(或收缩函数)。
表示向量或矩阵范数。
它满足如下性质
- 存在性:存在一个满足
的不动点
。
- 唯一性:不动点
是唯一的。
- 算法:考虑迭代过程:
其中
。然后,对于任何初始猜测
,当
时,
。此外,收敛速度是指数级的快。
柯西序列
该证明依赖于柯西序列。如果对于任意小的 ,存在一个
使得对于**所有
,都满足
,则称序列
为柯西序列。直观的解释是存在一个有限整数
,使得
之后的所有元素彼此足够接近。柯西序列很重要,因为它保证了会收敛到一个极限。它的收敛性质将用于证明压缩映射定理。请注意,我们必须有
对于所有**
。如果我们只是有
,则不足以声称该序列是柯西序列。例如,对于
,它满足
,但显然
是发散的。
至于严谨的证明最后收敛到一个极限,这里不给证明,先接受这个结论。
压缩映射的迭代收敛性
当你对一个点反复应用一个压缩映射(即进行迭代 ),所产生的序列
必定是一个柯西序列。
首先,假设 是一个压缩映射,我们有:
类似地,我们有 ,…,
。因此,我们有:
由于 ,我们知道当
时,
会以指数速度收敛到零(exponentially fast convergence),给定任意
。值得注意的是,
的收敛不足以暗示
的收敛。因此,对于任何
,我们需要进一步考虑
。特别是:
因此,对于任何 ,我们总是可以找到
使得对于所有
,
。
因此,这个序列是柯西序列,并因此收敛到一个极限点,记为 。
压缩映射存在性证明
极限点为不动点的证明
我们证明极限 是一个不动点。* 为此,由于
我们知道 以指数速度收敛到零。因此,我们在极限处有
。
压缩映射唯一性证明
假设存在另一个不动点 满足
。那么,
由于 ,这个不等式成立当且仅当
。因此,
。
贝尔曼最优公式的右边是一个压缩映射
考虑任意两个向量 ,并假设
且
。那么,
其中不等式表示元素级的比较。因此,
类似地,可以证明 。因此,
定义
其中 、
和
都是元素级运算符。根据定义,
。一方面,很容易看出
这意味着
于是,
其中 是最大范数。
另一方面,假设 是
的第
个分量,并且
和
分别是
和
的第
行。那么,
由于 是一个所有元素非负且元素之和为一的向量,因此有:
类似地,我们有 。因此,
进而有:
将此不等式代入 (3.5) 式,得到:
这完成了对 的压缩性质的证明。
v∗ 和 π∗的最优性
解 是最优状态价值,而
是一个最优策略。也就是说,对于任何策略
,都满足:
注:只要v*是最好的就证明了此时对应的π∗是最好的。(因为我们使用state value来评价一个策略的好坏)
其中 是策略
的状态价值,且不等式表示元素级比较。贝尔曼最优方程(BOE):它的解对应于最优状态价值和最优策略。下面是证明
对于任何策略 ,有:
由于
我们有:
重复应用上述不等式得到
因此,
其中最后一个等式成立是因为 且
是一个非负矩阵,其所有元素都小于或等于 1。
贪婪最优策略 - Greedy Optimal Policy
对于任意 (对于状态空间中的任何状态
),确定性贪婪策略
定义如下:
这意味着对于任何给定的状态 ,最优策略
会以概率 1 选择动作
,而选择其他任何动作的概率为 0。
这里, 是通过以下方式确定的:
这个公式表示, 是在当前状态
下,能够最大化 最优动作-值函数 (optimal action-value function)
的动作。简单来说,就是选择在当前状态下,未来预期回报最高的那个动作。
最优动作-值函数 定义如下:
这个公式是 贝尔曼最优方程 (Bellman Optimality Equation) 的核心部分,它解释了 的含义:
代表在状态
下执行动作
,然后从下一个状态
开始遵循最优策略所能获得的**预期总回报 (expected total return)**。
: 这一项表示在状态
下执行动作
后获得的即时奖励 (immediate reward) 的期望值。
是在状态
执行动作
得到奖励
的概率。
: 这一项表示在状态
下执行动作
后,到达下一个状态
,并从
开始遵循最优策略所能获得的未来奖励 (future rewards) 的期望值。
最优策略是唯一的吗?
在标准的马尔可夫决策过程(MDP)中,如果最优值函数 _ 或最优动作-值函数 _
存在,那么至少存在一个确定性的最优策略。这意味着你总能找到一个确定性的策略来达到最优性能。
然而,如果存在多个动作在某个状态下都能够达到相同的最大 值,那么这些动作的任何概率组合(即随机策略)也都是最优的。
RL学习笔记-贝尔曼最优方程(BOE)