Posted 2025-08-16Updated 2025-08-1723 minutes read (About 3523 words)

RL学习笔记-贝尔曼最优方程（BOE）

学习笔记来自西湖大学的RL课程：https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

回顾与引入

贝尔曼方程

贝尔曼方程描述了在给定策略下，状态价值函数 或 状态-行为价值函数 的自洽性（self-consistency）关系。

贝尔曼最优方程

贝尔曼最优方程描述了在最优策略 下，最优状态价值函数 或 最优状态-行为价值函数的自洽性关系。

这就引入了几个问题：

什么叫最优？
存在性：最优策略一定存在吗？
唯一性：最优策略是唯一的吗？
随机性：最优策略是确定性的还是随机性的？
求解算法：如何计算最优状态值和最优策略？

最优的定义

当且仅当对于所有状态 s∈S 和任何其他策略 π，都满足 vπ∗(s)≥vπ(s) 时，策略 π∗ 被认为是最优策略。最优策略所对应的状态价值即为最优状态价值。

贝尔曼最优方程（BOE）

对于每一个，贝尔曼最优方程（BOE）的元素形式表示为：

其中和是待求解的未知变量，并且

然而，要完全理解这个方程并非易事。例如，它包含了两个未知变量：状态值v(s) 和策略π(a∣s)。这可能会让初学者感到困惑，不知道如何从一个方程中求解两个未知变量。

但实际上事可以解的比如，考虑两个未知变量和，它们满足以下方程：

压缩映射定理

由于贝尔曼最优方程（BOE）可以表示为非线性方程，我们接下来介绍压缩映射定理来分析它。压缩映射定理是分析一般非线性方程的强大工具，它也被称为不动点定理。

考虑一个函数，其中且。如果满足以下条件，则称点为不动点：

上述方程的解释是的映射就是它本身。这就是为什么被称为“固定”的原因。如果存在使得：

对于任意，函数则是一个压缩映射（或收缩函数）。表示向量或矩阵范数。

它满足如下性质

存在性：存在一个满足的不动点。
唯一性：不动点是唯一的。
算法：考虑迭代过程：其中。然后，对于任何初始猜测，当时，。此外，收敛速度是指数级的快。

柯西序列

该证明依赖于柯西序列。如果对于任意小的，存在一个使得对于**所有，都满足，则称序列为柯西序列。直观的解释是存在一个有限整数 ，使得之后的所有元素彼此足够接近。柯西序列很重要，因为它保证了会收敛到一个极限。它的收敛性质将用于证明压缩映射定理。请注意，我们必须有对于所有** 。如果我们只是有，则不足以声称该序列是柯西序列。例如，对于，它满足，但显然是发散的。

至于严谨的证明最后收敛到一个极限，这里不给证明，先接受这个结论。

压缩映射的迭代收敛性

当你对一个点反复应用一个压缩映射（即进行迭代 ），所产生的序列 必定是一个柯西序列。

首先，假设是一个压缩映射，我们有：

类似地，我们有，…，。因此，我们有：

由于，我们知道当时，会以指数速度收敛到零（exponentially fast convergence），给定任意。值得注意的是，的收敛不足以暗示的收敛。因此，对于任何，我们需要进一步考虑。特别是：

因此，对于任何，我们总是可以找到使得对于所有，。

因此，这个序列是柯西序列，并因此收敛到一个极限点，记为。

压缩映射存在性证明

极限点为不动点的证明

我们证明极限是一个不动点。* 为此，由于

我们知道以指数速度收敛到零。因此，我们在极限处有。

压缩映射唯一性证明

假设存在另一个不动点满足。那么，

由于，这个不等式成立当且仅当 。因此，。

贝尔曼最优公式的右边是一个压缩映射

考虑任意两个向量，并假设且。那么，

其中不等式表示元素级的比较。因此，

类似地，可以证明。因此，

定义

其中、和都是元素级运算符。根据定义，。一方面，很容易看出

这意味着

于是，

其中是最大范数。

另一方面，假设是的第个分量，并且和分别是和的第行。那么，

由于是一个所有元素非负且元素之和为一的向量，因此有：

类似地，我们有。因此，

进而有：

将此不等式代入 (3.5) 式，得到：

这完成了对的压缩性质的证明。

v∗ 和 π∗的最优性

解是最优状态价值，而是一个最优策略。也就是说，对于任何策略，都满足：

注：只要v*是最好的就证明了此时对应的π∗是最好的。（因为我们使用state value来评价一个策略的好坏）

其中是策略的状态价值，且不等式表示元素级比较。贝尔曼最优方程（BOE）：它的解对应于最优状态价值和最优策略。下面是证明

对于任何策略，有：

由于

我们有：

重复应用上述不等式得到

因此，

其中最后一个等式成立是因为且是一个非负矩阵，其所有元素都小于或等于 1。

贪婪最优策略 - Greedy Optimal Policy

对于任意 (对于状态空间中的任何状态 )，确定性贪婪策略定义如下：

这意味着对于任何给定的状态，最优策略会以概率 1 选择动作，而选择其他任何动作的概率为 0。

这里，是通过以下方式确定的：

这个公式表示，是在当前状态下，能够最大化 最优动作-值函数 (optimal action-value function) 的动作。简单来说，就是选择在当前状态下，未来预期回报最高的那个动作。

最优动作-值函数定义如下：

这个公式是 贝尔曼最优方程 (Bellman Optimality Equation) 的核心部分，它解释了的含义：

代表在状态下执行动作，然后从下一个状态开始遵循最优策略所能获得的**预期总回报 (expected total return)**。
: 这一项表示在状态下执行动作后获得的即时奖励 (immediate reward) 的期望值。是在状态执行动作得到奖励的概率。
: 这一项表示在状态下执行动作后，到达下一个状态，并从开始遵循最优策略所能获得的未来奖励 (future rewards) 的期望值。

最优策略是唯一的吗？

在标准的马尔可夫决策过程（MDP）中，如果最优值函数 _ 或最优动作-值函数 _ 存在，那么至少存在一个确定性的最优策略。这意味着你总能找到一个确定性的策略来达到最优性能。

然而，如果存在多个动作在某个状态下都能够达到相同的最大值，那么这些动作的任何概率组合（即随机策略）也都是最优的。

RL学习笔记-贝尔曼最优方程（BOE）

https://cl0und.xyz/2025/08/16/RL学习笔记-贝尔曼最优方程（BOE）/

Author

李三（cl0und）

Posted on

2025-08-16

Updated on

2025-08-17

Licensed under