ML的数学基石-矩阵的变换,逆,特征值与秩

0. 学习导航与阅读建议

  • 先把“可逆性 ↔ det(A)”这一几何直观吃透,再过渡到“特征值/特征向量 → 几何重数与代数重数”的层次;
  • 最后用“零空间、秩与秩零定理”串联“信息丢失/维度守恒”的大图景。

1. det(A) 与可逆性的几何直观

问题一:为什么 det(A) = 0 矩阵就不可逆?

要回答这个问题,我们需要回到三个最核心的定义:

  1. 什么是“逆”?(Invertible)
  2. 什么是“矩阵”?(Matrix)
  3. 什么是“行列式”?(Determinant)

定义回顾:从根源理解概念

  • 逆 (Inverse) 的直观理解:
    在普通的算术中,数字 5 的倒数是 (或者 ),因为 。数字 1 是一个“单位”,任何数乘以 1 都保持不变。
    在矩阵的世界里,也有一个类似的概念。一个矩阵 A 的“逆”,我们记作 ,它也需要满足一个类似的条件:

    这里的 就是单位矩阵 (Identity Matrix),它在矩阵乘法中的作用就像数字 1。对于 2x2 矩阵,单位矩阵是:

    所以,“可逆”意味着存在另一个矩阵,可以将原来的变换“撤销”,恢复到最初的状态。如果找不到这样一个“撤销”操作,那么它就是“不可逆”的 (non-invertible or singular)。
  • 矩阵 (Matrix) 的几何意义:空间变换
    一个矩阵最核心的几何意义是对空间进行线性变换 (Linear Transformation)。当你用一个矩阵乘以一个向量(或点),你实际上是在对这个向量(或点)进行一种“操作”,比如旋转、拉伸、剪切,或者这些操作的组合。
    例如,矩阵 会把空间中所有的向量都拉伸为原来的两倍。矩阵 会把所有向量逆时针旋转 90 度。
  • 行列式 (Determinant) 的几何意义:面积/体积变化的比例
    行列式 det(A) 是一个数值,它描述了矩阵 A 在进行空间变换时,一个单位面积(二维)或单位体积(三维)会缩放多少倍
    • 二维情况:想象一个在原点由两个基向量((1,0) 和 (0,1))构成的 1x1 的正方形。经过矩阵 变换后,这个正方形会变成一个平行四边形。这个新平行四边形的面积,就是行列式 det(A) 的绝对值
      • 如果 det(A) = 2,意味着所有图形的面积都会扩大为原来的 2 倍。
      • 如果 det(A) = 0.5,意味着所有图形的面积都会缩小为原来的一半。
      • 如果 det(A) 是负数(比如 -2),表示面积扩大了 2 倍,并且空间的“朝向”被翻转了(比如像照镜子一样)。

证明:为什么 det(A) = 0 意味着不可逆?

  1. det(A) = 0 时,发生了什么?
    根据行列式的几何意义,det(A) = 0 意味着经过矩阵 A 的变换后,原来的单位面积/体积被压缩成了 0
    • 在二维空间中,一个面积为 1 的正方形,被变换成了一个面积为 0 的图形。这意味着什么?这意味着它被“压扁”了。整个二维平面被压缩成了一条直线,甚至一个点。
    • 在三维空间中,一个体积为 1 的立方体,被变换成了一个体积为 0 的图形。这意味着它被“压扁”成一个平面、一条直线,或者一个点。
  2. “压扁”操作为什么不可逆?
    想象一下,你有一个三维的苹果,现在用一个巨大的压力机把它压成了一张苹果味的“纸片”(一个二维平面)。这个“压扁”操作就是我们的矩阵 A,它的 det(A) = 0
    现在我问你:你能从这张“纸片”恢复出原来那个完整的三维苹果吗?

答案是不能。 因为在“压扁”的过程中,关于“厚度”维度的所有信息都丢失了。多个不同的三维物体(比如一个苹果、一个梨、一个球)都可能被压成同一个二维形状。你无法知道这个“纸片”原来是什么。
这就是“不可逆”的本质。
从数学上讲,当变换 A 将空间“压扁”时,会出现“多对一”的映射。例如,在二维空间中,整个平面被压到了一条直线上。这意味着有无数个不同的原始向量(点),经过变换后都变成了同一个向量(点)。
*而“可逆”变换必须是“一对一”*的。只有这样,你才能从变换后的结果,唯一地、确定地找回变换前的原始状态。
既然 det(A) = 0 的变换是“多对一”的,它就不可能存在一个逆操作 来实现“一对多”的恢复(这在函数上是不允许的)。

结论:
det(A) = 0 矩阵 A 的变换会将空间降维(例如,平面压成直线) 变换过程中丢失了信息,产生了多对一的映射 无法从结果唯一的恢复出初始状态 不存在逆变换 矩阵 A 不可逆。


2. 特征值/特征向量 → 几何重数与代数重数

问题二:矩阵的几何重数和代数重数怎么理解?

这两个概念都与矩阵的特征值 (Eigenvalue)特征向量 (Eigenvector) 紧密相关。所以我们必须先从这里开始。

定义回顾:特征值与特征向量

  • 什么是特征向量?
    对于一个给定的矩阵 A(也就是一个给定的空间变换),一个特征向量 (Eigenvector) v 是一个非常特殊的向量。当它被矩阵 A 变换后,它的方向保持不变(或恰好反向),只发生了长度上的缩放。
  • 什么是特征值?
    这个缩放的比例,就是与该特征向量对应的**特征值 (Eigenvalue)**,我们用 表示。

用公式表达就是:

这个公式的几何意义是:“对向量 v 进行 A 变换,其效果等同于仅仅将向量 v 的长度缩放 倍”
这条不变的“轴线”方向,就是理解代数重数和几何重数的关键。


代数重数 (Algebraic Multiplicity)

  • 定义:一个特征值 代数重数,是指它在特征多项式中作为根的重数
  • 这是什么意思?
    求解特征值的过程,是从 出发,变形为
    为了使这个方程有非零向量 v 的解,矩阵 必须是“不可逆”的,也就是它的行列式必须为零:

    这个方程左边是一个关于 的多项式,我们称之为特征多项式。解这个方程,就能得到所有的特征值
    代数重数,就是在解这个多项式方程时,某个解 重复了多少次。
  • 例子:
    假设一个 3x3 矩阵的特征多项式解出来是:

    那么它的特征值是
    • 特征值 5 出现了两次,所以它的代数重数是 2
    • 特征值 -2 出现了一次,所以它的代数重数是 1
    你可以把它理解成一个纯粹的、代数计算上的概念。

几何重数 (Geometric Multiplicity)

  • 定义:一个特征值 几何重数,是指与它对应的线性无关的特征向量的个数
  • 这是什么意思?
    我们回到特征向量的定义:。对于一个特定的特征值 ,所有满足这个方程的特征向量 v(再加上零向量),会构成一个空间,我们称之为**特征空间 (Eigenspace)
    这个特征空间的
    维度 (dimension)**,就是 的几何重数。
    • 如果一个特征值对应的特征空间是一条直线,那么它的几何重数就是 1。(因为你只能找到一个线性无关的向量来定义这条线)
    • 如果一个特征值对应的特征空间是一个平面,那么它的几何重数就是 2。(因为你需要两个线性无关的向量来定义这个平面)
    • 如果是一个三维空间,几何重数就是 3。
  • 几何直观:
    几何重数告诉你,对应于某个特定缩放比例(特征值 ),有多少个“方向”(维度)上的向量只被缩放而不改变方向
    • 几何重数为 1:意味着只有一个轴线方向上的向量享受“只缩放,不旋转”的待遇。
    • 几何重数为 2:意味着有一个平面上所有的向量,都享受“只缩放,不旋转”的待遇。

两者的关系和区别

  • 关系:对于任何一个特征值 ,它的几何重数小于或等于其代数重数。

  • 一个直观的例子来理解差异:
    考虑一个 2x2 的**剪切变换 (Shear)**:
    这个变换会把单位正方形推成一个平行四边形,x 轴上的点不动,其他点向右平移,平移的距离取决于它的高度。

    在这个例子中,代数重数 (2) 大于几何重数 (1)。这告诉我们,虽然从代数计算上看,特征值 1 很“重要”(出现了两次),但从几何上看,它只定义了一个不变的方向(x 轴),而不是两个。

    1. 求代数重数:
      特征多项式是
      唯一的解是 ,它出现了两次。
      所以,特征值 1 的代数重数是 2
    2. 求几何重数:
      我们来找特征值 1 对应的特征向量 v

      这给出了方程 ,也就是
      这意味着,所有满足条件的特征向量都形如 ,其中 x 是任意非零实数。
      所有这些向量都位于 x 轴上。这个特征空间是一条直线,它的维度是 1。
      所以,特征值 1 的几何重数是 1
  • “完美”的矩阵:
    当一个矩阵所有特征值的几何重数都等于其代数重数时,这个矩阵就拥有“足够多”的特征向量,可以张成整个空间。这类矩阵被称为可对角化 (diagonalizable) 的。对称矩阵就是这样“完美”的矩阵。

  • “有缺陷”的矩阵 (Defective Matrix):
    当至少有一个特征值的几何重数小于其代数重数时(就像上面的剪切矩阵),这个矩阵就被称为“有缺陷的”。它没有足够多的特征向量来张成整个空间。


3. 几何重数 ≤ 代数重数:证明与结构视角

一、证明:

这个不等式分为两部分,我们分别证明,并解释每一步的含义。

1. 证明

这部分非常直观,源于特征值的定义。

  • 回顾定义:一个数 被称为矩阵 的特征值,前提是必须存在一个非零向量 ,使得 成立。
  • 推导:
    1. 既然 是一个特征值,那么根据定义,至少存在一个非零的特征向量
    2. 相关的特征空间 (Eigenspace),是所有满足 的向量 的集合(再加上零向量)。
    3. 因为我们至少找到了一个非零向量 在这个空间里,所以这个空间的维度至少是一维(一条直线)。
    4. 几何重数的定义,就是这个特征空间的维度。
  • 结论:因此,一个特征值的几何重数至少是 1。如果连一个特征向量都找不到,那它根本就不能被称为特征值。

2. 证明

这部分的证明稍微抽象一些,但核心思想是“换个角度看问题”,也就是进行一次基变换 (Change of Basis)**。

我们来一步步构建这个证明

  • 前提设定:
    • 假设我们有一个 的矩阵
    • 它有一个特征值
    • 我们假设这个特征值 的**几何重数是 **
  • 几何重数的含义:
    • 几何重数是 意味着,对应 的特征空间是 维的。
    • 这说明我们可以找到 个线性无关的特征向量 。对于其中任何一个向量 ,都有
  • “搭桥”——构建新的坐标系:
    • 个向量 只是我们 维空间的一部分。我们可以再找 个与它们线性无关的向量 ,把它们凑在一起,形成我们 维空间的一组新的基(可以理解为一套新的坐标轴)。
    • 我们用这组新的基向量作为列,构建一个可逆矩阵
  • “换角度看”——进行相似变换:
    • 直接分析矩阵 可能很复杂。我们换一个角度,看看在新的坐标系下, 这个变换长什么样。这个操作就是计算
    • 一个重要的性质是:相似矩阵 有完全相同的特征多项式,因此它们的特征值以及这些特征值的代数重数也都完全相同。 所以,我们分析 的代数重数,就等于在分析 的代数重数。
      • 目标:证明相似矩阵的特征多项式相同,即

    * 推导步骤:

  • 结论:两者特征多项式完全相同,因而特征值及其代数重数也完全相同。
  • 分析新矩阵 的结构:
    • 我们来看 的前 列是什么:
    • 当我们用 去乘 时,由于 的作用是把向量从标准坐标系转换到我们的新坐标系,它会把 向量变回第 个标准基向量
    • 所以,
    • 这意味着, 这个新矩阵的前 列一定是 。这个矩阵看起来是这个样子的:

      这里的 的单位矩阵,B 和 C 是由 那些向量变换后得到的一些我们不关心的矩阵块。
  • 最后一步——计算特征多项式:
    • 现在我们来计算这个新矩阵的特征多项式
    • 对于这种分块上三角矩阵,其行列式等于对角线上矩阵块的行列式的乘积:

    • 这个结果告诉我们什么?它说明,在最终的特征多项式中,因子 至少出现了
    • 代数重数的定义,就是这个因子总共出现的次数。所以, 的代数重数必然大于或等于
    • 因为我们一开始就设定了 是几何重数,所以我们证明了:几何重数 代数重数

4. 零空间、秩与秩零定理:信息丢失与维度守恒

二、什么是零空间 (Null Space)?

零空间,又称**核 (Kernel)**,是理解矩阵“信息损失”的钥匙。

  • 定义:对于一个 的矩阵 ,它的零空间 是所有满足方程 维向量 的集合。
  • 几何直观:
    我们将矩阵 看作一个从 维空间到 维空间的变换。
    • 零空间就是输入空间(** 维空间)中,所有被这个变换“压扁”到原点 的向量的集合。**
    • 它回答了这样一个问题:“哪些向量在经过 A 变换后会消失(变成零向量)?”
  • 例子:
    1. 可逆矩阵 (比如旋转矩阵):一个旋转变换只会把零向量自己留在原点。任何非零向量旋转后还是非零向量。因此,一个可逆矩阵的零空间里**只有零向量 **
    2. 投影矩阵:想象一个将三维空间 投影到 xy 平面的矩阵
      • 什么样的向量 会被它变换成
      • 要满足这个条件,必须 可以是任何值。
      • 所以,所有形如 的向量(也就是整个 z 轴)都会被压到原点。
      • 因此,这个投影矩阵的零空间就是 z 轴。

零空间的维度,被称为**零度 (Nullity)**。在上面投影的例子里,零空间是一条直线,所以零度是 1。


三、什么是秩零定理 (Rank-Nullity Theorem)?

秩零定理是关于“维度守恒”的一个美妙定律。它完美地连接了矩阵变换的输入和输出。

首先,我们需要定义**秩 (Rank)**。

  • 秩 (Rank):矩阵 列空间 (Column Space) 的维度被称为 的秩。
    • 列空间是矩阵 的所有列向量的线性组合所构成的空间。
    • 几何直观:列空间就是变换后所有可能的输出向量所组成的空间。它回答了这样一个问题:“原来的空间经过 A 变换后,最终会形成一个什么样的空间?”
    • 在上面那个投影到 xy 平面的例子中,无论你输入什么三维向量,输出结果一定落在 xy 平面上。所以它的列空间就是 xy 平面,维度是 2,因此秩是 2

秩零定理 (Rank-Nullity Theorem)

对于一个 的矩阵 (代表一个从 维空间到 维空间的变换),其零度的关系满足:

  • 直观解释——维度的“能量守恒”:
    一个 维的输入空间,在经过矩阵 A 变换后,它的维度“分配”到了两个地方:

    秩零定理告诉我们,“存活”的维度加上“消失”的维度,必须等于原始的总维度。维度不会凭空产生,也不会凭空消失。

    1. 一部分维度“存活”了下来,构成了输出空间(列空间)。这部分的维度就是
    2. 另一部分维度“消失”了,被压缩进了原点。这部分的维度就是零度
  • 用投影的例子验证:

    • 我们的投影矩阵 的,所以输入空间是 3 维的 ()。
    • 我们算出了它的秩是 2 (输出是一个平面)。
    • 我们算出了它的零度是 1 (被压缩的是一条直线)。
    • 根据定理:。完美符合!

这个定理非常强大。比如,它告诉我们,一个 矩阵如果把一个 3D 空间压缩成一条直线(秩为 1),那么必然有一个 2D 的平面(零度为 2)被压缩到了原点。


5. 总结速览

  • det(A)=0 的几何含义是“压扁/降维”,导致信息丢失和多对一映射,因此不可逆。
  • 特征值/特征向量刻画“仅缩放不转向”的方向;代数重数是“在特征多项式中作为根的重复次数”,几何重数是“对应特征空间的维度”。
  • 重要关系:;等号处处成立即矩阵可对角化。
  • 零空间与秩共同揭示“变换保留的维度”和“被消灭的维度”,由秩零定理统一:
Author

李三(cl0und)

Posted on

2025-08-16

Updated on

2025-08-16

Licensed under