ML的数学基石-圆盘定理(Gershgorin circle)
什么是圆盘定理
忘掉那些复杂的数学符号,我们先用一个比喻来理解。
想象一个“引力游戏”
想象一个平面上有几个大质量的星球,我们称它们为“主星”。每个主星都有自己的“引力范围”。除了这些主星,还有一些环绕它们的小行星。
- 主星 (Star):这就是矩阵对角线上的元素。它们是每个圈的圆心。
- 引力范围 (Gravitational Field):每个主星的引力能影响多远,取决于它所在行的其他“随从”行星。我们把同一行里,除了主星自己以外所有随从的“质量”加起来,这个总和就是引力范围的半径。
- 小行星 (Asteroid):这就是矩阵的特征值。它们是我们要找的目标。
格申圆盘定理说的就是:所有的小行星(特征值),都必然落在这个由所有主星的“引力范围”所组成的星系(所有圆盘的并集)之内。
换句话说,它没告诉我们每个特征值的精确位置,但它划定了一个肯定能找到它们的区域。
从比喻回到数学
现在我们把上面的比喻翻译成数学语言。
对于一个 的方阵
:
格申圆盘定理的内容:
- 画圆心:在复平面上(可以暂时就想成普通的x-y坐标平面),把矩阵对角线上的元素
一个个地标出来。这些点就是我们即将要画的
个圆的圆心。
- 圆心 1:
- 圆心 2:
- …
- 圆心 n:
- 圆心 1:
- 算半径:对每一个圆心,计算它对应圆的半径。
- 第
个圆的半径
,等于第
行所有非对角线元素的绝对值之和。
- 半径 1:
- 半径 2:
- …
- 半径 i:
- 第
- 画圆盘:以
为圆心,以
为半径,画一个圆盘(实心圆)。这样我们就得到了
个“格申圆盘”。
- 定理结论:矩阵
的所有特征值(总共有
个)必定都落在这
个圆盘构成的区域之内(即所有圆盘的并集)。
重要提示:
- 定理不保证每个圆盘里都恰好有一个特征值。
- 可能一个圆盘里有好几个特征值,而另一个圆盘里一个都没有。
- 它只是说,把所有圆盘的范围合在一起,这个总范围一定能网罗住所有的特征值。
来个具体的例子
我们来看一个 3x3 的矩阵 :
我们来给它的特征值“划地盘”:
- 第一行 (Row 1):
- 圆心:对角线元素是
。
- 半径:行内其他元素的绝对值之和是
。
- 圆盘 D1:以
为中心,半径为
的圆。范围是
。
- 圆心:对角线元素是
- 第二行 (Row 2):
- 圆心:对角线元素是
。
- 半径:行内其他元素的绝对值之和是
。
- 圆盘 D2:以
为中心,半径为
的圆。范围是
。
- 圆心:对角线元素是
- 第三行 (Row 3):
- 圆心:对角线元素是
。
- 半径:行内其他元素的绝对值之和是
。
- 圆盘 D3:以
为中心,半径为
的圆。范围是
。
- 圆心:对角线元素是
结论:矩阵 的三个特征值,我们不知道具体是多少,但我们百分之百肯定,它们一定落在 D1、D2、D3 这三个圆盘所覆盖的区域里。也就是在区间
这个并集之内,化简后就是
。
(实际上,这个矩阵的特征值约等于 ,
,
,完全在我们预测的范围内!)
它有什么用?
你可能会问,只知道一个大概范围有什么用?
- 快速估算:在很多工程和科学问题中,我们不需要知道特征值的精确值,只需要知道它的大概范围,比如判断它是不是正数,或者离
有多远。格申圆盘定理提供了一个计算成本极低的方法。
- 理论证明:就像你在上一个问题中看到的,它可以用来证明某些矩阵的性质。例如,如果一个矩阵的所有格申圆盘都不包含原点
,那我们就能立刻断定,这个矩阵的特征值肯定没有
,因此该矩阵是可逆的!这是一种非常强大的证明工具。
定理的数学证明
当然可以。格申圆盘定理的证明非常巧妙,而且只需要用到特征值和绝对值不等式的一些基本性质。
证明目标
定理内容:对于任意 复数矩阵
,它的每一个特征值
都必定落在由
个格申圆盘构成的并集区域内。其中第
个圆盘
的圆心是对角元
,半径是该行所有非对角元绝对值之和
。
用数学语言描述,任何特征值 都满足:
证明过程
第 1 步:从特征值的定义出发
我们从最根本的定义开始。如果 是矩阵
的一个特征值,那么必然存在一个与之对应的非零向量
(称为特征向量),使得它们满足下面的方程:
其中 ,并且因为
是非零向量,所以它的分量
不全为零。
第 2 步:将方程展开到每一行
上面的矩阵方程可以写成一个包含 个线性方程的方程组。我们来看第
行对应的方程:
这个式子是把矩阵 的第
行和向量
相乘得到的结果。
第 3 步:分离对角线元素
现在,我们把左边的求和式中,包含对角元 的那一项单独拿出来:
可以简写为:
移项整理一下,把所有带 的项都放到一边:
第 4 步:引入证明的关键——找到“最大”的分量
这是整个证明中最核心的一步。因为特征向量 不是零向量,所以它的分量中至少有一个不为零。这意味着,必然存在一个绝对值最大的分量。
我们假设这个绝对值最大的分量是 。也就是说,我们选取一个索引
(从
到
),使得:
因为 非零,所以我们知道
。
第 5 步:将第 4 步的结论应用到第 3 步的方程中
我们在第 3 步得到的方程对任意一行 都成立,那么它自然对我们刚刚选出的第
行也成立。我们把
换成
:
第 6 步:两边取绝对值,并使用三角不等式
现在,我们对上式两边同时取绝对值:
左边可以拆开:
对于右边,我们使用三角不等式(一个和的绝对值小于或等于绝对值的和):
把上面几个式子合起来,我们得到:
第 7 步:再次利用“最大”分量的性质
回到第 4 步,我们已经知道 是所有分量绝对值中最大的,即
。所以,我们可以对上一步不等式的右边进行放缩:
结合第 6 步,我们得到:
第 8 步:得到最终结论
因为我们知道 ,所以我们可以放心地在不等式两边同时除以
,不等号方向不变:
让我们来解读一下这个最终的不等式:
是第
个格申圆盘的圆心。
是第
个格申圆盘的半径。
是特征值
到圆心
的距离。
这个不等式说明,特征值 到圆心
的距离小于或等于半径。这恰恰证明了:特征值
位于以
为圆心、以
为半径的圆盘之内。
由于我们从一个任意的特征值 开始推导,证明了它必然落在某一个(由其特征向量最大分量所在的行决定)格申圆盘中,所以可以得出结论:矩阵
的所有特征值都位于所有
个格申圆盘的并集之中。
证明完毕。
强化学习种证明r可解
我们使用格申圆盘定理来证明矩阵 总是可逆的。
这个证明的核心思路是:
如果我们可以证明数字 0 不在任何一个格申圆盘内,那么 0 就不可能是这个矩阵的特征值。一个没有零特征值的矩阵一定是可逆的。
预备知识回顾
- 矩阵可逆性:一个方阵可逆,当且仅当它的所有特征值都不为零。
- 格申圆盘定理:对于矩阵
,它的每个特征值都位于某个格申圆盘
内。圆盘
的圆心是
(对角元),半径是
(该行非对角元绝对值之和)。
- 我们的前提:
是一个随机矩阵,因此
并且每一行之和为
(
)。
是折扣因子,满足
。
证明步骤
第 1 步:确定我们要分析的矩阵
我们令 。我们的目标就是证明
是可逆的。
第 2 步:找出 的对角元和非对角元
为了应用格申圆盘定理,我们需要确定 的对角元(圆心)和非对角元(用于计 算半径)。
- 对角元 (圆心):
所以,第 个格申圆盘的圆心是
。
- 非对角元:
第 3 步:计算格申圆盘的半径
第 个圆盘的半径
是第
行所有非对角元绝对值的和:
因为 是随机矩阵,每一行的和为
,即
,所以
。
代入半径公式,得到:
第 4 步:证明 不在任何一个圆盘内
一个点(比如 )如果在一个圆盘内,那么这个点到圆心的距离必须小于或等于圆的半径。
- 第
个圆盘的圆心是
。
- 第
个圆盘的半径是
。
我们来比较一下“圆心到 的距离”和“半径”的大小。
圆心到 的距离是
。
因为 ,且
,所以
。
因此圆心 必然是正数,距离就是它本身:
现在,我们来比较这个距离和半径 :
- 距离:
- 半径:
因为 ,必有
,同时在两边都减去相同的数
不等号方向不变:
也就是
(圆心到 的距离“严格大于”圆的半径)
这个结论对矩阵的每一行 都成立。
结论
我们已经证明,对于矩阵 的任意一个格申圆盘,其圆心到原点
的距离都严格大于它的半径。这意味着原点
位于所有格申圆盘之外。
根据格申圆盘定理,所有的特征值都必须在这些圆盘构成的区域之内。既然 在这个区域之外,那么
** 就不可能是矩阵
的特征值**。
因为矩阵 的所有特征值都非零,所以该矩阵必然是可逆的。
证明完毕。
ML的数学基石-圆盘定理(Gershgorin circle)
https://cl0und.xyz/2025/08/11/ML的数学基石-圆盘定理(Gershgorin-circle)/