ML的数学基石-矩阵的变换,逆,特征值与秩
0. 学习导航与阅读建议
- 先把“可逆性 ↔ det(A)”这一几何直观吃透,再过渡到“特征值/特征向量 → 几何重数与代数重数”的层次;
- 最后用“零空间、秩与秩零定理”串联“信息丢失/维度守恒”的大图景。
1. det(A) 与可逆性的几何直观
问题一:为什么 det(A) = 0 矩阵就不可逆?
要回答这个问题,我们需要回到三个最核心的定义:
- 什么是“逆”?(Invertible)
- 什么是“矩阵”?(Matrix)
- 什么是“行列式”?(Determinant)
定义回顾:从根源理解概念
- 逆 (Inverse) 的直观理解:
在普通的算术中,数字 5 的倒数是(或者
),因为
。数字 1 是一个“单位”,任何数乘以 1 都保持不变。
在矩阵的世界里,也有一个类似的概念。一个矩阵 A 的“逆”,我们记作,它也需要满足一个类似的条件:
这里的就是单位矩阵 (Identity Matrix),它在矩阵乘法中的作用就像数字 1。对于 2x2 矩阵,单位矩阵是:
所以,“可逆”意味着存在另一个矩阵,可以将原来的变换“撤销”,恢复到最初的状态。如果找不到这样一个“撤销”操作,那么它就是“不可逆”的 (non-invertible or singular)。 - 矩阵 (Matrix) 的几何意义:空间变换
一个矩阵最核心的几何意义是对空间进行线性变换 (Linear Transformation)。当你用一个矩阵乘以一个向量(或点),你实际上是在对这个向量(或点)进行一种“操作”,比如旋转、拉伸、剪切,或者这些操作的组合。
例如,矩阵会把空间中所有的向量都拉伸为原来的两倍。矩阵
会把所有向量逆时针旋转 90 度。
- 行列式 (Determinant) 的几何意义:面积/体积变化的比例
行列式det(A)
是一个数值,它描述了矩阵 A 在进行空间变换时,一个单位面积(二维)或单位体积(三维)会缩放多少倍。- 二维情况:想象一个在原点由两个基向量((1,0) 和 (0,1))构成的 1x1 的正方形。经过矩阵
变换后,这个正方形会变成一个平行四边形。这个新平行四边形的面积,就是行列式
det(A)
的绝对值。- 如果
det(A) = 2
,意味着所有图形的面积都会扩大为原来的 2 倍。 - 如果
det(A) = 0.5
,意味着所有图形的面积都会缩小为原来的一半。 - 如果
det(A)
是负数(比如 -2),表示面积扩大了 2 倍,并且空间的“朝向”被翻转了(比如像照镜子一样)。
- 如果
- 二维情况:想象一个在原点由两个基向量((1,0) 和 (0,1))构成的 1x1 的正方形。经过矩阵
证明:为什么 det(A) = 0 意味着不可逆?
- 当
det(A) = 0
时,发生了什么?
根据行列式的几何意义,det(A) = 0
意味着经过矩阵 A 的变换后,原来的单位面积/体积被压缩成了 0。- 在二维空间中,一个面积为 1 的正方形,被变换成了一个面积为 0 的图形。这意味着什么?这意味着它被“压扁”了。整个二维平面被压缩成了一条直线,甚至一个点。
- 在三维空间中,一个体积为 1 的立方体,被变换成了一个体积为 0 的图形。这意味着它被“压扁”成一个平面、一条直线,或者一个点。
- “压扁”操作为什么不可逆?
想象一下,你有一个三维的苹果,现在用一个巨大的压力机把它压成了一张苹果味的“纸片”(一个二维平面)。这个“压扁”操作就是我们的矩阵 A,它的det(A) = 0
。
现在我问你:你能从这张“纸片”恢复出原来那个完整的三维苹果吗?
答案是不能。 因为在“压扁”的过程中,关于“厚度”维度的所有信息都丢失了。多个不同的三维物体(比如一个苹果、一个梨、一个球)都可能被压成同一个二维形状。你无法知道这个“纸片”原来是什么。
这就是“不可逆”的本质。
从数学上讲,当变换 A 将空间“压扁”时,会出现“多对一”的映射。例如,在二维空间中,整个平面被压到了一条直线上。这意味着有无数个不同的原始向量(点),经过变换后都变成了同一个向量(点)。
*而“可逆”变换必须是“一对一”*的。只有这样,你才能从变换后的结果,唯一地、确定地找回变换前的原始状态。
既然 det(A) = 0
的变换是“多对一”的,它就不可能存在一个逆操作 来实现“一对多”的恢复(这在函数上是不允许的)。
结论:det(A) = 0
矩阵 A 的变换会将空间降维(例如,平面压成直线)
变换过程中丢失了信息,产生了多对一的映射
无法从结果唯一的恢复出初始状态
不存在逆变换
矩阵 A 不可逆。
2. 特征值/特征向量 → 几何重数与代数重数
问题二:矩阵的几何重数和代数重数怎么理解?
这两个概念都与矩阵的特征值 (Eigenvalue) 和特征向量 (Eigenvector) 紧密相关。所以我们必须先从这里开始。
定义回顾:特征值与特征向量
- 什么是特征向量?
对于一个给定的矩阵 A(也就是一个给定的空间变换),一个特征向量 (Eigenvector)v
是一个非常特殊的向量。当它被矩阵 A 变换后,它的方向保持不变(或恰好反向),只发生了长度上的缩放。 - 什么是特征值?
这个缩放的比例,就是与该特征向量对应的**特征值 (Eigenvalue)**,我们用表示。
用公式表达就是:
这个公式的几何意义是:“对向量 v
进行 A 变换,其效果等同于仅仅将向量 v
的长度缩放 倍”。
这条不变的“轴线”方向,就是理解代数重数和几何重数的关键。
代数重数 (Algebraic Multiplicity)
- 定义:一个特征值
的代数重数,是指它在特征多项式中作为根的重数。
- 这是什么意思?
求解特征值的过程,是从出发,变形为
。
为了使这个方程有非零向量v
的解,矩阵必须是“不可逆”的,也就是它的行列式必须为零:
这个方程左边是一个关于的多项式,我们称之为特征多项式。解这个方程,就能得到所有的特征值
。
代数重数,就是在解这个多项式方程时,某个解重复了多少次。
- 例子:
假设一个 3x3 矩阵的特征多项式解出来是:
那么它的特征值是和
。
- 特征值 5 出现了两次,所以它的代数重数是 2。
- 特征值 -2 出现了一次,所以它的代数重数是 1。
几何重数 (Geometric Multiplicity)
- 定义:一个特征值
的几何重数,是指与它对应的线性无关的特征向量的个数。
- 这是什么意思?
我们回到特征向量的定义:。对于一个特定的特征值
,所有满足这个方程的特征向量
v
(再加上零向量),会构成一个空间,我们称之为**特征空间 (Eigenspace)。
这个特征空间的维度 (dimension)**,就是的几何重数。
- 如果一个特征值对应的特征空间是一条直线,那么它的几何重数就是 1。(因为你只能找到一个线性无关的向量来定义这条线)
- 如果一个特征值对应的特征空间是一个平面,那么它的几何重数就是 2。(因为你需要两个线性无关的向量来定义这个平面)
- 如果是一个三维空间,几何重数就是 3。
- 几何直观:
几何重数告诉你,对应于某个特定缩放比例(特征值),有多少个“方向”(维度)上的向量只被缩放而不改变方向。
- 几何重数为 1:意味着只有一个轴线方向上的向量享受“只缩放,不旋转”的待遇。
- 几何重数为 2:意味着有一个平面上所有的向量,都享受“只缩放,不旋转”的待遇。
两者的关系和区别
关系:对于任何一个特征值
,它的几何重数小于或等于其代数重数。
一个直观的例子来理解差异:
考虑一个 2x2 的**剪切变换 (Shear)**:。
这个变换会把单位正方形推成一个平行四边形,x 轴上的点不动,其他点向右平移,平移的距离取决于它的高度。在这个例子中,代数重数 (2) 大于几何重数 (1)。这告诉我们,虽然从代数计算上看,特征值 1 很“重要”(出现了两次),但从几何上看,它只定义了一个不变的方向(x 轴),而不是两个。
- 求代数重数:
特征多项式是。
唯一的解是,它出现了两次。
所以,特征值 1 的代数重数是 2。 - 求几何重数:
我们来找特征值 1 对应的特征向量v
。。
这给出了方程,也就是
。
这意味着,所有满足条件的特征向量都形如,其中 x 是任意非零实数。
所有这些向量都位于 x 轴上。这个特征空间是一条直线,它的维度是 1。
所以,特征值 1 的几何重数是 1。
- 求代数重数:
“完美”的矩阵:
当一个矩阵所有特征值的几何重数都等于其代数重数时,这个矩阵就拥有“足够多”的特征向量,可以张成整个空间。这类矩阵被称为可对角化 (diagonalizable) 的。对称矩阵就是这样“完美”的矩阵。“有缺陷”的矩阵 (Defective Matrix):
当至少有一个特征值的几何重数小于其代数重数时(就像上面的剪切矩阵),这个矩阵就被称为“有缺陷的”。它没有足够多的特征向量来张成整个空间。
3. 几何重数 ≤ 代数重数:证明与结构视角
一、证明:
这个不等式分为两部分,我们分别证明,并解释每一步的含义。
1. 证明 
这部分非常直观,源于特征值的定义。
- 回顾定义:一个数
被称为矩阵
的特征值,前提是必须存在一个非零向量
,使得
成立。
- 推导:
- 既然
是一个特征值,那么根据定义,至少存在一个非零的特征向量
。
- 与
相关的特征空间 (Eigenspace),是所有满足
的向量
的集合(再加上零向量)。
- 因为我们至少找到了一个非零向量
在这个空间里,所以这个空间的维度至少是一维(一条直线)。
- 几何重数的定义,就是这个特征空间的维度。
- 既然
- 结论:因此,一个特征值的几何重数至少是 1。如果连一个特征向量都找不到,那它根本就不能被称为特征值。
2. 证明 
这部分的证明稍微抽象一些,但核心思想是“换个角度看问题”,也就是进行一次基变换 (Change of Basis)**。
我们来一步步构建这个证明
- 前提设定:
- 假设我们有一个
的矩阵
。
- 它有一个特征值
。
- 我们假设这个特征值
的**几何重数是 **
。
- 假设我们有一个
- 几何重数的含义:
- 几何重数是
意味着,对应
的特征空间是
维的。
- 这说明我们可以找到
个线性无关的特征向量
。对于其中任何一个向量
,都有
。
- 几何重数是
- “搭桥”——构建新的坐标系:
- 这
个向量
只是我们
维空间的一部分。我们可以再找
个与它们线性无关的向量
,把它们凑在一起,形成我们
维空间的一组新的基(可以理解为一套新的坐标轴)。
- 我们用这组新的基向量作为列,构建一个可逆矩阵
:
- 这
- “换角度看”——进行相似变换:
- 直接分析矩阵
可能很复杂。我们换一个角度,看看在新的坐标系下,
这个变换长什么样。这个操作就是计算
。
- 一个重要的性质是:相似矩阵
和
有完全相同的特征多项式,因此它们的特征值以及这些特征值的代数重数也都完全相同。 所以,我们分析
的代数重数,就等于在分析
的代数重数。
- 目标:证明相似矩阵的特征多项式相同,即
- 直接分析矩阵
* 推导步骤:
- 结论:两者特征多项式完全相同,因而特征值及其代数重数也完全相同。
- 分析新矩阵
的结构:
- 我们来看
的前
列是什么:
- 当我们用
去乘
时,由于
的作用是把向量从标准坐标系转换到我们的新坐标系,它会把
向量变回第
个标准基向量
。
- 所以,
。
- 这意味着,
这个新矩阵的前
列一定是
。这个矩阵看起来是这个样子的:
这里的是
的单位矩阵,B 和 C 是由
那些向量变换后得到的一些我们不关心的矩阵块。
- 我们来看
- 最后一步——计算特征多项式:
- 现在我们来计算这个新矩阵的特征多项式
:
- 对于这种分块上三角矩阵,其行列式等于对角线上矩阵块的行列式的乘积:
- 这个结果告诉我们什么?它说明,在最终的特征多项式中,因子
至少出现了
次。
- 代数重数的定义,就是这个因子总共出现的次数。所以,
的代数重数必然大于或等于
。
- 因为我们一开始就设定了
是几何重数,所以我们证明了:几何重数
代数重数。
- 现在我们来计算这个新矩阵的特征多项式
4. 零空间、秩与秩零定理:信息丢失与维度守恒
二、什么是零空间 (Null Space)?
零空间,又称**核 (Kernel)**,是理解矩阵“信息损失”的钥匙。
- 定义:对于一个
的矩阵
,它的零空间
是所有满足方程
的
维向量
的集合。
- 几何直观:
我们将矩阵看作一个从
维空间到
维空间的变换。
- 零空间就是输入空间(
** 维空间)中,所有被这个变换“压扁”到原点
的向量的集合。**
- 它回答了这样一个问题:“哪些向量在经过 A 变换后会消失(变成零向量)?”
- 零空间就是输入空间(
- 例子:
- 可逆矩阵 (比如旋转矩阵):一个旋转变换只会把零向量自己留在原点。任何非零向量旋转后还是非零向量。因此,一个可逆矩阵的零空间里**只有零向量 **
。
- 投影矩阵:想象一个将三维空间
投影到 xy 平面的矩阵
。
- 什么样的向量
会被它变换成
?
。
- 要满足这个条件,必须
且
。
可以是任何值。
- 所以,所有形如
的向量(也就是整个 z 轴)都会被压到原点。
- 因此,这个投影矩阵的零空间就是 z 轴。
- 什么样的向量
- 可逆矩阵 (比如旋转矩阵):一个旋转变换只会把零向量自己留在原点。任何非零向量旋转后还是非零向量。因此,一个可逆矩阵的零空间里**只有零向量 **
零空间的维度,被称为**零度 (Nullity)**。在上面投影的例子里,零空间是一条直线,所以零度是 1。
三、什么是秩零定理 (Rank-Nullity Theorem)?
秩零定理是关于“维度守恒”的一个美妙定律。它完美地连接了矩阵变换的输入和输出。
首先,我们需要定义**秩 (Rank)**。
- 秩 (Rank):矩阵
的列空间 (Column Space) 的维度被称为
的秩。
- 列空间是矩阵
的所有列向量的线性组合所构成的空间。
- 几何直观:列空间就是变换后所有可能的输出向量所组成的空间。它回答了这样一个问题:“原来的空间经过 A 变换后,最终会形成一个什么样的空间?”
- 在上面那个投影到 xy 平面的例子中,无论你输入什么三维向量,输出结果一定落在 xy 平面上。所以它的列空间就是 xy 平面,维度是 2,因此秩是 2。
- 列空间是矩阵
秩零定理 (Rank-Nullity Theorem)
对于一个 的矩阵
(代表一个从
维空间到
维空间的变换),其秩和零度的关系满足:
直观解释——维度的“能量守恒”:
一个维的输入空间,在经过矩阵 A 变换后,它的维度“分配”到了两个地方:
秩零定理告诉我们,“存活”的维度加上“消失”的维度,必须等于原始的总维度。维度不会凭空产生,也不会凭空消失。
- 一部分维度“存活”了下来,构成了输出空间(列空间)。这部分的维度就是秩。
- 另一部分维度“消失”了,被压缩进了原点。这部分的维度就是零度。
用投影的例子验证:
- 我们的投影矩阵
是
的,所以输入空间是 3 维的 (
)。
- 我们算出了它的秩是 2 (输出是一个平面)。
- 我们算出了它的零度是 1 (被压缩的是一条直线)。
- 根据定理:
。完美符合!
- 我们的投影矩阵
这个定理非常强大。比如,它告诉我们,一个 矩阵如果把一个 3D 空间压缩成一条直线(秩为 1),那么必然有一个 2D 的平面(零度为 2)被压缩到了原点。
5. 总结速览
- det(A)=0 的几何含义是“压扁/降维”,导致信息丢失和多对一映射,因此不可逆。
- 特征值/特征向量刻画“仅缩放不转向”的方向;代数重数是“在特征多项式中作为根的重复次数”,几何重数是“对应特征空间的维度”。
- 重要关系:
;等号处处成立即矩阵可对角化。
- 零空间与秩共同揭示“变换保留的维度”和“被消灭的维度”,由秩零定理统一:
。
ML的数学基石-矩阵的变换,逆,特征值与秩