ML的数学基石-圆盘定理(Gershgorin circle)

什么是圆盘定理

忘掉那些复杂的数学符号,我们先用一个比喻来理解。

想象一个“引力游戏”

想象一个平面上有几个大质量的星球,我们称它们为“主星”。每个主星都有自己的“引力范围”。除了这些主星,还有一些环绕它们的小行星。

  • 主星 (Star):这就是矩阵对角线上的元素。它们是每个圈的圆心。
  • 引力范围 (Gravitational Field):每个主星的引力能影响多远,取决于它所在行的其他“随从”行星。我们把同一行里,除了主星自己以外所有随从的“质量”加起来,这个总和就是引力范围的半径。
  • 小行星 (Asteroid):这就是矩阵的特征值。它们是我们要找的目标。

格申圆盘定理说的就是:所有的小行星(特征值),都必然落在这个由所有主星的“引力范围”所组成的星系(所有圆盘的并集)之内。

换句话说,它没告诉我们每个特征值的精确位置,但它划定了一个肯定能找到它们的区域。


从比喻回到数学

现在我们把上面的比喻翻译成数学语言。

对于一个 的方阵

格申圆盘定理的内容:

  1. 画圆心:在复平面上(可以暂时就想成普通的x-y坐标平面),把矩阵对角线上的元素 一个个地标出来。这些点就是我们即将要画的个圆的圆心
    • 圆心 1:
    • 圆心 2:
    • 圆心 n:
  2. 算半径:对每一个圆心,计算它对应圆的半径
    • 个圆的半径 ,等于第 行所有非对角线元素的绝对值之和
    • 半径 1:
    • 半径 2:
    • 半径 i:
  3. 画圆盘:以 为圆心,以 为半径,画一个圆盘(实心圆)。这样我们就得到了 个“格申圆盘”。
  4. 定理结论:矩阵 的所有特征值(总共有 个)必定都落在这 个圆盘构成的区域之内(即所有圆盘的并集)。

重要提示:

  • 定理不保证每个圆盘里都恰好有一个特征值。
  • 可能一个圆盘里有好几个特征值,而另一个圆盘里一个都没有。
  • 它只是说,把所有圆盘的范围合在一起,这个总范围一定能网罗住所有的特征值。

来个具体的例子

我们来看一个 3x3 的矩阵

我们来给它的特征值“划地盘”:

  1. 第一行 (Row 1):
    • 圆心:对角线元素是
    • 半径:行内其他元素的绝对值之和是
    • 圆盘 D1:以 为中心,半径为 的圆。范围是
  2. 第二行 (Row 2):
    • 圆心:对角线元素是
    • 半径:行内其他元素的绝对值之和是
    • 圆盘 D2:以 为中心,半径为 的圆。范围是
  3. 第三行 (Row 3):
    • 圆心:对角线元素是
    • 半径:行内其他元素的绝对值之和是
    • 圆盘 D3:以 为中心,半径为 的圆。范围是

结论:矩阵 的三个特征值,我们不知道具体是多少,但我们百分之百肯定,它们一定落在 D1、D2、D3 这三个圆盘所覆盖的区域里。也就是在区间 这个并集之内,化简后就是

(实际上,这个矩阵的特征值约等于 , , ,完全在我们预测的范围内!)


它有什么用?

你可能会问,只知道一个大概范围有什么用?

  1. 快速估算:在很多工程和科学问题中,我们不需要知道特征值的精确值,只需要知道它的大概范围,比如判断它是不是正数,或者离 有多远。格申圆盘定理提供了一个计算成本极低的方法。
  2. 理论证明:就像你在上一个问题中看到的,它可以用来证明某些矩阵的性质。例如,如果一个矩阵的所有格申圆盘都不包含原点 ,那我们就能立刻断定,这个矩阵的特征值肯定没有 ,因此该矩阵是可逆的!这是一种非常强大的证明工具。

定理的数学证明

当然可以。格申圆盘定理的证明非常巧妙,而且只需要用到特征值和绝对值不等式的一些基本性质。


证明目标

定理内容:对于任意 复数矩阵 ,它的每一个特征值 都必定落在由 个格申圆盘构成的并集区域内。其中第 个圆盘 的圆心是对角元 ,半径是该行所有非对角元绝对值之和

用数学语言描述,任何特征值 都满足:


证明过程

第 1 步:从特征值的定义出发

我们从最根本的定义开始。如果 是矩阵 的一个特征值,那么必然存在一个与之对应的非零向量 (称为特征向量),使得它们满足下面的方程:

其中 ,并且因为 是非零向量,所以它的分量 不全为零。

第 2 步:将方程展开到每一行

上面的矩阵方程可以写成一个包含 个线性方程的方程组。我们来看第 行对应的方程:

这个式子是把矩阵 的第 行和向量 相乘得到的结果。

第 3 步:分离对角线元素

现在,我们把左边的求和式中,包含对角元 的那一项单独拿出来:

可以简写为:

移项整理一下,把所有带 的项都放到一边:

第 4 步:引入证明的关键——找到“最大”的分量

这是整个证明中最核心的一步。因为特征向量 不是零向量,所以它的分量中至少有一个不为零。这意味着,必然存在一个绝对值最大的分量

我们假设这个绝对值最大的分量是 。也就是说,我们选取一个索引 (从 ),使得:

因为 非零,所以我们知道

第 5 步:将第 4 步的结论应用到第 3 步的方程中

我们在第 3 步得到的方程对任意一行 都成立,那么它自然对我们刚刚选出的第 行也成立。我们把 换成

第 6 步:两边取绝对值,并使用三角不等式

现在,我们对上式两边同时取绝对值:

左边可以拆开:

对于右边,我们使用三角不等式(一个和的绝对值小于或等于绝对值的和):

把上面几个式子合起来,我们得到:

第 7 步:再次利用“最大”分量的性质

回到第 4 步,我们已经知道 是所有分量绝对值中最大的,即 。所以,我们可以对上一步不等式的右边进行放缩:

结合第 6 步,我们得到:

第 8 步:得到最终结论

因为我们知道 ,所以我们可以放心地在不等式两边同时除以 ,不等号方向不变:

让我们来解读一下这个最终的不等式:

  • 是第 个格申圆盘的圆心
  • 是第 个格申圆盘的半径
  • 是特征值 到圆心 距离

这个不等式说明,特征值 到圆心 的距离小于或等于半径。这恰恰证明了:特征值 位于以 为圆心、以 为半径的圆盘之内

由于我们从一个任意的特征值 开始推导,证明了它必然落在某一个(由其特征向量最大分量所在的行决定)格申圆盘中,所以可以得出结论:矩阵 的所有特征值都位于所有 个格申圆盘的并集之中

证明完毕。

强化学习种证明r可解

我们使用格申圆盘定理来证明矩阵 总是可逆的。

这个证明的核心思路是:

如果我们可以证明数字 0 不在任何一个格申圆盘内,那么 0 就不可能是这个矩阵的特征值。一个没有零特征值的矩阵一定是可逆的。


预备知识回顾

  1. 矩阵可逆性:一个方阵可逆,当且仅当它的所有特征值都不为零。
  2. 格申圆盘定理:对于矩阵 ,它的每个特征值都位于某个格申圆盘 内。圆盘 的圆心是 (对角元),半径是 (该行非对角元绝对值之和)。
  3. 我们的前提
    • 是一个随机矩阵,因此 并且每一行之和为 ()。
    • 是折扣因子,满足

证明步骤

第 1 步:确定我们要分析的矩阵

我们令 。我们的目标就是证明 是可逆的。

第 2 步:找出 的对角元和非对角元

为了应用格申圆盘定理,我们需要确定 的对角元(圆心)和非对角元(用于计 算半径)。

  • 对角元 (圆心):

所以,第 个格申圆盘的圆心是

  • 非对角元:

第 3 步:计算格申圆盘的半径

个圆盘的半径 是第 行所有非对角元绝对值的和:

因为 是随机矩阵,每一行的和为 ,即 ,所以

代入半径公式,得到:

第 4 步:证明 不在任何一个圆盘内

一个点(比如 )如果在一个圆盘内,那么这个点到圆心的距离必须小于或等于圆的半径。

  • 个圆盘的圆心
  • 个圆盘的半径

我们来比较一下“圆心到 的距离”和“半径”的大小。

圆心到 的距离是
因为 ,且 ,所以
因此圆心 必然是正数,距离就是它本身:

现在,我们来比较这个距离和半径

  • 距离
  • 半径

因为 ,必有 ,同时在两边都减去相同的数 不等号方向不变:

也就是

(圆心到 的距离“严格大于”圆的半径)

这个结论对矩阵的每一行 都成立。


结论

我们已经证明,对于矩阵 的任意一个格申圆盘,其圆心到原点 的距离都严格大于它的半径。这意味着原点 位于所有格申圆盘之外

根据格申圆盘定理,所有的特征值都必须在这些圆盘构成的区域之内。既然 在这个区域之外,那么 ** 就不可能是矩阵 的特征值**。

因为矩阵 的所有特征值都非零,所以该矩阵必然是可逆的

证明完毕。

Author

李三(cl0und)

Posted on

2025-08-11

Updated on

2025-08-14

Licensed under