RL学习笔记-贝尔曼最优方程(BOE)

学习笔记来自西湖大学的RL课程:https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

回顾与引入

贝尔曼方程

贝尔曼方程描述了在给定策略 下,状态价值函数 状态-行为价值函数 自洽性(self-consistency)关系


贝尔曼最优方程

贝尔曼最优方程描述了在最优策略 下,最优状态价值函数 最优状态-行为价值函数自洽性关系

这就引入了几个问题:

  1. 什么叫最优?
  2. 存在性:最优策略一定存在吗?
  3. 唯一性:最优策略是唯一的吗?
  4. 随机性:最优策略是确定性的还是随机性的?
  5. 求解算法:如何计算最优状态值和最优策略?

最优的定义

当且仅当对于所有状态 s∈S 和任何其他策略 π,都满足 vπ∗(s)≥vπ(s) 时,策略 π∗ 被认为是最优策略。最优策略所对应的状态价值即为最优状态价值

贝尔曼最优方程(BOE)

对于每一个 ,贝尔曼最优方程(BOE)的元素形式表示为:

其中 是待求解的未知变量,并且


然而,要完全理解这个方程并非易事。例如,它包含了两个未知变量:状态值v(s) 和策略π(a∣s)。这可能会让初学者感到困惑,不知道如何从一个方程中求解两个未知变量。

但实际上事可以解的比如,考虑两个未知变量 ,它们满足以下方程:

压缩映射定理

由于贝尔曼最优方程(BOE)可以表示为非线性方程 ,我们接下来介绍压缩映射定理来分析它。压缩映射定理是分析一般非线性方程的强大工具,它也被称为不动点定理。

考虑一个函数 ,其中 。如果满足以下条件,则称点 不动点

上述方程的解释是 的映射就是它本身。这就是为什么 被称为“固定”的原因。如果存在 使得:

对于任意 ,函数 则是一个压缩映射(或收缩函数)。 表示向量或矩阵范数。

它满足如下性质

  • 存在性:存在一个满足 的不动点
  • 唯一性:不动点 是唯一的。
  • 算法:考虑迭代过程:其中 。然后,对于任何初始猜测 ,当 时,。此外,收敛速度是指数级的快。

柯西序列

该证明依赖于柯西序列。如果对于任意小的 ,存在一个 使得对于**所有,都满足 ,则称序列 为柯西序列。直观的解释是存在一个有限整数 ,使得 之后的所有元素彼此足够接近。柯西序列很重要,因为它保证了会收敛到一个极限。它的收敛性质将用于证明压缩映射定理。请注意,我们必须有 对于所有** 。如果我们只是有,则不足以声称该序列是柯西序列。例如,对于 ,它满足 ,但显然 是发散的。

至于严谨的证明最后收敛到一个极限,这里不给证明,先接受这个结论。

压缩映射的迭代收敛性

当你对一个点反复应用一个压缩映射(即进行迭代 ),所产生的序列 必定是一个柯西序列。

首先,假设 是一个压缩映射,我们有:

类似地,我们有 ,…,。因此,我们有:

由于 ,我们知道当 时, 会以指数速度收敛到零(exponentially fast convergence),给定任意 。值得注意的是, 的收敛不足以暗示 的收敛。因此,对于任何 ,我们需要进一步考虑 。特别是:

因此,对于任何 ,我们总是可以找到 使得对于所有

因此,这个序列是柯西序列,并因此收敛到一个极限点,记为

压缩映射存在性证明

极限点为不动点的证明

我们证明极限 是一个不动点。* 为此,由于

我们知道 以指数速度收敛到零。因此,我们在极限处有

压缩映射唯一性证明

假设存在另一个不动点 满足 。那么,

由于 ,这个不等式成立当且仅当 。因此,

贝尔曼最优公式的右边是一个压缩映射

考虑任意两个向量 ,并假设 。那么,

其中不等式表示元素级的比较。因此,

类似地,可以证明 。因此,

定义

其中 都是元素级运算符。根据定义,。一方面,很容易看出

这意味着

于是,

其中 是最大范数。

另一方面,假设 的第 个分量,并且 分别是 的第 行。那么,

由于 是一个所有元素非负且元素之和为一的向量,因此有:

类似地,我们有 。因此,

进而有:

将此不等式代入 (3.5) 式,得到:

这完成了对 的压缩性质的证明。

v∗ 和 π∗的最优性

是最优状态价值,而 是一个最优策略。也就是说,对于任何策略 ,都满足:

注:只要v*是最好的就证明了此时对应的π∗是最好的。(因为我们使用state value来评价一个策略的好坏)

其中 是策略 的状态价值,且不等式表示元素级比较。贝尔曼最优方程(BOE):它的解对应于最优状态价值和最优策略。下面是证明

对于任何策略 ,有:

由于

我们有:

重复应用上述不等式得到

因此,

其中最后一个等式成立是因为 是一个非负矩阵,其所有元素都小于或等于 1。

贪婪最优策略 - Greedy Optimal Policy

对于任意 (对于状态空间中的任何状态 ),确定性贪婪策略 定义如下:

这意味着对于任何给定的状态 ,最优策略 会以概率 1 选择动作 ,而选择其他任何动作的概率为 0。

这里, 是通过以下方式确定的:

这个公式表示, 是在当前状态 下,能够最大化 最优动作-值函数 (optimal action-value function) 的动作。简单来说,就是选择在当前状态下,未来预期回报最高的那个动作。

最优动作-值函数 定义如下:

这个公式是 贝尔曼最优方程 (Bellman Optimality Equation) 的核心部分,它解释了 的含义:

  • 代表在状态 下执行动作 ,然后从下一个状态 开始遵循最优策略所能获得的**预期总回报 (expected total return)**。
  • : 这一项表示在状态 下执行动作 后获得的即时奖励 (immediate reward) 的期望值。 是在状态 执行动作 得到奖励 的概率。
  • : 这一项表示在状态 下执行动作 后,到达下一个状态 ,并从 开始遵循最优策略所能获得的未来奖励 (future rewards) 的期望值。

最优策略是唯一的吗?

在标准的马尔可夫决策过程(MDP)中,如果最优值函数 _ 或最优动作-值函数 _ 存在,那么至少存在一个确定性的最优策略。这意味着你总能找到一个确定性的策略来达到最优性能。

然而,如果存在多个动作在某个状态下都能够达到相同的最大 值,那么这些动作的任何概率组合(即随机策略)也都是最优的。

Author

李三(cl0und)

Posted on

2025-08-16

Updated on

2025-08-17

Licensed under