Posted 2025-08-16Updated 2025-08-1643 minutes read (About 6429 words)

ML的数学基石-矩阵的变换，逆，特征值与秩

0. 学习导航与阅读建议

先把“可逆性 ↔ det(A)”这一几何直观吃透，再过渡到“特征值/特征向量 → 几何重数与代数重数”的层次；
最后用“零空间、秩与秩零定理”串联“信息丢失/维度守恒”的大图景。

1. det(A) 与可逆性的几何直观

问题一：为什么 det(A) = 0 矩阵就不可逆？

要回答这个问题，我们需要回到三个最核心的定义：

什么是“逆”？(Invertible)
什么是“矩阵”？(Matrix)
什么是“行列式”？(Determinant)

定义回顾：从根源理解概念

逆 (Inverse) 的直观理解：
在普通的算术中，数字 5 的倒数是 (或者 )，因为。数字 1 是一个“单位”，任何数乘以 1 都保持不变。
在矩阵的世界里，也有一个类似的概念。一个矩阵 A 的“逆”，我们记作，它也需要满足一个类似的条件：

这里的就是单位矩阵 (Identity Matrix)，它在矩阵乘法中的作用就像数字 1。对于 2x2 矩阵，单位矩阵是：

所以，“可逆”意味着存在另一个矩阵，可以将原来的变换“撤销”，恢复到最初的状态。如果找不到这样一个“撤销”操作，那么它就是“不可逆”的 (non-invertible or singular)。
矩阵 (Matrix) 的几何意义：空间变换
一个矩阵最核心的几何意义是对空间进行线性变换 (Linear Transformation)。当你用一个矩阵乘以一个向量（或点），你实际上是在对这个向量（或点）进行一种“操作”，比如旋转、拉伸、剪切，或者这些操作的组合。
例如，矩阵会把空间中所有的向量都拉伸为原来的两倍。矩阵会把所有向量逆时针旋转 90 度。
行列式 (Determinant) 的几何意义：面积/体积变化的比例
行列式 det(A) 是一个数值，它描述了矩阵 A 在进行空间变换时，一个单位面积（二维）或单位体积（三维）会缩放多少倍。
- 二维情况：想象一个在原点由两个基向量（(1,0) 和 (0,1)）构成的 1x1 的正方形。经过矩阵变换后，这个正方形会变成一个平行四边形。这个新平行四边形的面积，就是行列式 det(A) 的绝对值。
  - 如果 det(A) = 2，意味着所有图形的面积都会扩大为原来的 2 倍。
  - 如果 det(A) = 0.5，意味着所有图形的面积都会缩小为原来的一半。
  - 如果 det(A) 是负数（比如 -2），表示面积扩大了 2 倍，并且空间的“朝向”被翻转了（比如像照镜子一样）。

证明：为什么 det(A) = 0 意味着不可逆？

当 det(A) = 0 时，发生了什么？
根据行列式的几何意义，det(A) = 0 意味着经过矩阵 A 的变换后，原来的单位面积/体积被压缩成了 0。
- 在二维空间中，一个面积为 1 的正方形，被变换成了一个面积为 0 的图形。这意味着什么？这意味着它被“压扁”了。整个二维平面被压缩成了一条直线，甚至一个点。
- 在三维空间中，一个体积为 1 的立方体，被变换成了一个体积为 0 的图形。这意味着它被“压扁”成一个平面、一条直线，或者一个点。
“压扁”操作为什么不可逆？
想象一下，你有一个三维的苹果，现在用一个巨大的压力机把它压成了一张苹果味的“纸片”（一个二维平面）。这个“压扁”操作就是我们的矩阵 A，它的 det(A) = 0。
现在我问你：你能从这张“纸片”恢复出原来那个完整的三维苹果吗？

答案是不能。 因为在“压扁”的过程中，关于“厚度”维度的所有信息都丢失了。多个不同的三维物体（比如一个苹果、一个梨、一个球）都可能被压成同一个二维形状。你无法知道这个“纸片”原来是什么。
这就是“不可逆”的本质。
从数学上讲，当变换 A 将空间“压扁”时，会出现“多对一”的映射。例如，在二维空间中，整个平面被压到了一条直线上。这意味着有无数个不同的原始向量（点），经过变换后都变成了同一个向量（点）。
*而“可逆”变换必须是“一对一”*的。只有这样，你才能从变换后的结果，唯一地、确定地找回变换前的原始状态。
既然 det(A) = 0 的变换是“多对一”的，它就不可能存在一个逆操作来实现“一对多”的恢复（这在函数上是不允许的）。

结论：
det(A) = 0 矩阵 A 的变换会将空间降维（例如，平面压成直线）变换过程中丢失了信息，产生了多对一的映射无法从结果唯一的恢复出初始状态不存在逆变换矩阵 A 不可逆。

2. 特征值/特征向量 → 几何重数与代数重数

问题二：矩阵的几何重数和代数重数怎么理解？

这两个概念都与矩阵的特征值 (Eigenvalue) 和特征向量 (Eigenvector) 紧密相关。所以我们必须先从这里开始。

定义回顾：特征值与特征向量

什么是特征向量？
对于一个给定的矩阵 A（也就是一个给定的空间变换），一个特征向量 (Eigenvector) v 是一个非常特殊的向量。当它被矩阵 A 变换后，它的方向保持不变（或恰好反向），只发生了长度上的缩放。
什么是特征值？
这个缩放的比例，就是与该特征向量对应的**特征值 (Eigenvalue)**，我们用表示。

用公式表达就是：

这个公式的几何意义是：“对向量 v 进行 A 变换，其效果等同于仅仅将向量 v 的长度缩放倍”。
这条不变的“轴线”方向，就是理解代数重数和几何重数的关键。

代数重数 (Algebraic Multiplicity)

定义：一个特征值的代数重数，是指它在特征多项式中作为根的重数。
这是什么意思？
求解特征值的过程，是从出发，变形为。
为了使这个方程有非零向量 v 的解，矩阵必须是“不可逆”的，也就是它的行列式必须为零：

这个方程左边是一个关于的多项式，我们称之为特征多项式。解这个方程，就能得到所有的特征值。
代数重数，就是在解这个多项式方程时，某个解重复了多少次。
例子：
假设一个 3x3 矩阵的特征多项式解出来是：

那么它的特征值是和。
- 特征值 5 出现了两次，所以它的代数重数是 2。
- 特征值 -2 出现了一次，所以它的代数重数是 1。
你可以把它理解成一个纯粹的、代数计算上的概念。

几何重数 (Geometric Multiplicity)

定义：一个特征值的几何重数，是指与它对应的线性无关的特征向量的个数。
这是什么意思？
我们回到特征向量的定义：。对于一个特定的特征值，所有满足这个方程的特征向量 v（再加上零向量），会构成一个空间，我们称之为**特征空间 (Eigenspace)。
这个特征空间的维度 (dimension)**，就是的几何重数。
- 如果一个特征值对应的特征空间是一条直线，那么它的几何重数就是 1。（因为你只能找到一个线性无关的向量来定义这条线）
- 如果一个特征值对应的特征空间是一个平面，那么它的几何重数就是 2。（因为你需要两个线性无关的向量来定义这个平面）
- 如果是一个三维空间，几何重数就是 3。
几何直观：
几何重数告诉你，对应于某个特定缩放比例（特征值），有多少个“方向”（维度）上的向量只被缩放而不改变方向。
- 几何重数为 1：意味着只有一个轴线方向上的向量享受“只缩放，不旋转”的待遇。
- 几何重数为 2：意味着有一个平面上所有的向量，都享受“只缩放，不旋转”的待遇。

两者的关系和区别

关系：对于任何一个特征值，它的几何重数小于或等于其代数重数。
一个直观的例子来理解差异：
考虑一个 2x2 的**剪切变换 (Shear)**：。
这个变换会把单位正方形推成一个平行四边形，x 轴上的点不动，其他点向右平移，平移的距离取决于它的高度。

在这个例子中，代数重数 (2) 大于几何重数 (1)。这告诉我们，虽然从代数计算上看，特征值 1 很“重要”（出现了两次），但从几何上看，它只定义了一个不变的方向（x 轴），而不是两个。
1. 求代数重数：
  特征多项式是。
  唯一的解是，它出现了两次。
  所以，特征值 1 的代数重数是 2。
2. 求几何重数：
  我们来找特征值 1 对应的特征向量 v。
  。
  这给出了方程，也就是。
  这意味着，所有满足条件的特征向量都形如，其中 x 是任意非零实数。
  所有这些向量都位于 x 轴上。这个特征空间是一条直线，它的维度是 1。
  所以，特征值 1 的几何重数是 1。
“完美”的矩阵：
当一个矩阵所有特征值的几何重数都等于其代数重数时，这个矩阵就拥有“足够多”的特征向量，可以张成整个空间。这类矩阵被称为可对角化 (diagonalizable) 的。对称矩阵就是这样“完美”的矩阵。
“有缺陷”的矩阵 (Defective Matrix)：
当至少有一个特征值的几何重数小于其代数重数时（就像上面的剪切矩阵），这个矩阵就被称为“有缺陷的”。它没有足够多的特征向量来张成整个空间。

3. 几何重数 ≤ 代数重数：证明与结构视角

一、证明：

这个不等式分为两部分，我们分别证明，并解释每一步的含义。

1. 证明

这部分非常直观，源于特征值的定义。

回顾定义：一个数被称为矩阵的特征值，前提是必须存在一个非零向量 ，使得成立。
推导：
1. 既然是一个特征值，那么根据定义，至少存在一个非零的特征向量。
2. 与相关的特征空间 (Eigenspace)，是所有满足的向量的集合（再加上零向量）。
3. 因为我们至少找到了一个非零向量在这个空间里，所以这个空间的维度至少是一维（一条直线）。
4. 几何重数的定义，就是这个特征空间的维度。
结论：因此，一个特征值的几何重数至少是 1。如果连一个特征向量都找不到，那它根本就不能被称为特征值。

2. 证明

这部分的证明稍微抽象一些，但核心思想是“换个角度看问题”，也就是进行一次基变换 (Change of Basis)**。

我们来一步步构建这个证明

前提设定:
- 假设我们有一个的矩阵。
- 它有一个特征值。
- 我们假设这个特征值的**几何重数是 **。
几何重数的含义:
- 几何重数是意味着，对应的特征空间是维的。
- 这说明我们可以找到个线性无关的特征向量。对于其中任何一个向量，都有。
“搭桥”——构建新的坐标系:
- 这个向量只是我们维空间的一部分。我们可以再找个与它们线性无关的向量，把它们凑在一起，形成我们维空间的一组新的基（可以理解为一套新的坐标轴）。
- 我们用这组新的基向量作为列，构建一个可逆矩阵：
“换角度看”——进行相似变换:
- 直接分析矩阵可能很复杂。我们换一个角度，看看在新的坐标系下，这个变换长什么样。这个操作就是计算。
- 一个重要的性质是：相似矩阵和有完全相同的特征多项式，因此它们的特征值以及这些特征值的代数重数也都完全相同。 所以，我们分析的代数重数，就等于在分析的代数重数。
  - 目标：证明相似矩阵的特征多项式相同，即

    * 推导步骤：

结论：两者特征多项式完全相同，因而特征值及其代数重数也完全相同。
分析新矩阵的结构:
- 我们来看的前列是什么：
- 当我们用去乘时，由于的作用是把向量从标准坐标系转换到我们的新坐标系，它会把向量变回第个标准基向量。
- 所以，。
- 这意味着，这个新矩阵的前列一定是。这个矩阵看起来是这个样子的：
  
  这里的是的单位矩阵，B 和 C 是由那些向量变换后得到的一些我们不关心的矩阵块。
最后一步——计算特征多项式:
- 现在我们来计算这个新矩阵的特征多项式：
- 对于这种分块上三角矩阵，其行列式等于对角线上矩阵块的行列式的乘积：
- 这个结果告诉我们什么？它说明，在最终的特征多项式中，因子 至少出现了次。
- 代数重数的定义，就是这个因子总共出现的次数。所以，的代数重数必然大于或等于。
- 因为我们一开始就设定了是几何重数，所以我们证明了：几何重数代数重数。

4. 零空间、秩与秩零定理：信息丢失与维度守恒

二、什么是零空间 (Null Space)？

零空间，又称**核 (Kernel)**，是理解矩阵“信息损失”的钥匙。

定义：对于一个的矩阵，它的零空间是所有满足方程的维向量的集合。
几何直观：
我们将矩阵看作一个从维空间到维空间的变换。
- 零空间就是输入空间（** 维空间）中，所有被这个变换“压扁”到原点的向量的集合。**
- 它回答了这样一个问题：“哪些向量在经过 A 变换后会消失（变成零向量）？”
例子：
1. 可逆矩阵 (比如旋转矩阵)：一个旋转变换只会把零向量自己留在原点。任何非零向量旋转后还是非零向量。因此，一个可逆矩阵的零空间里**只有零向量 **。
2. 投影矩阵：想象一个将三维空间投影到 xy 平面的矩阵。
  - 什么样的向量会被它变换成？
  - 。
  - 要满足这个条件，必须且。可以是任何值。
  - 所以，所有形如的向量（也就是整个 z 轴）都会被压到原点。
  - 因此，这个投影矩阵的零空间就是 z 轴。

零空间的维度，被称为**零度 (Nullity)**。在上面投影的例子里，零空间是一条直线，所以零度是 1。

三、什么是秩零定理 (Rank-Nullity Theorem)？

秩零定理是关于“维度守恒”的一个美妙定律。它完美地连接了矩阵变换的输入和输出。

首先，我们需要定义**秩 (Rank)**。

秩 (Rank)：矩阵的列空间 (Column Space) 的维度被称为的秩。
- 列空间是矩阵的所有列向量的线性组合所构成的空间。
- 几何直观：列空间就是变换后所有可能的输出向量所组成的空间。它回答了这样一个问题：“原来的空间经过 A 变换后，最终会形成一个什么样的空间？”
- 在上面那个投影到 xy 平面的例子中，无论你输入什么三维向量，输出结果一定落在 xy 平面上。所以它的列空间就是 xy 平面，维度是 2，因此秩是 2。

秩零定理 (Rank-Nullity Theorem)

对于一个的矩阵（代表一个从维空间到维空间的变换），其秩和零度的关系满足：

直观解释——维度的“能量守恒”：
一个维的输入空间，在经过矩阵 A 变换后，它的维度“分配”到了两个地方：

秩零定理告诉我们，“存活”的维度加上“消失”的维度，必须等于原始的总维度。维度不会凭空产生，也不会凭空消失。
1. 一部分维度“存活”了下来，构成了输出空间（列空间）。这部分的维度就是秩。
2. 另一部分维度“消失”了，被压缩进了原点。这部分的维度就是零度。
用投影的例子验证：
- 我们的投影矩阵是的，所以输入空间是 3 维的 ()。
- 我们算出了它的秩是 2 (输出是一个平面)。
- 我们算出了它的零度是 1 (被压缩的是一条直线)。
- 根据定理：。完美符合！

这个定理非常强大。比如，它告诉我们，一个矩阵如果把一个 3D 空间压缩成一条直线（秩为 1），那么必然有一个 2D 的平面（零度为 2）被压缩到了原点。

5. 总结速览

det(A)=0 的几何含义是“压扁/降维”，导致信息丢失和多对一映射，因此不可逆。
特征值/特征向量刻画“仅缩放不转向”的方向；代数重数是“在特征多项式中作为根的重复次数”，几何重数是“对应特征空间的维度”。
重要关系：；等号处处成立即矩阵可对角化。
零空间与秩共同揭示“变换保留的维度”和“被消灭的维度”，由秩零定理统一：。

ML的数学基石-矩阵的变换，逆，特征值与秩

https://cl0und.xyz/2025/08/16/ML的数学基石-矩阵的变换，逆，特征值与秩/

Author

李三（cl0und）

Posted on

2025-08-16

Updated on

2025-08-16

Licensed under

#ML Math

ML的数学基石-矩阵的变换，逆，特征值与秩

0. 学习导航与阅读建议

1. det(A) 与可逆性的几何直观

问题一：为什么 det(A) = 0 矩阵就不可逆？

定义回顾：从根源理解概念

证明：为什么 det(A) = 0 意味着不可逆？

2. 特征值/特征向量 → 几何重数与代数重数

问题二：矩阵的几何重数和代数重数怎么理解？

定义回顾：特征值与特征向量

代数重数 (Algebraic Multiplicity)

几何重数 (Geometric Multiplicity)

两者的关系和区别

3. 几何重数 ≤ 代数重数：证明与结构视角

一、证明：

1. 证明

2. 证明

4. 零空间、秩与秩零定理：信息丢失与维度守恒

二、什么是零空间 (Null Space)？

三、什么是秩零定理 (Rank-Nullity Theorem)？

5. 总结速览

Author

Posted on

Updated on

Licensed under

Categories

Recents

Archives

Tags

Catalogue