ML的数学基石-隐函数定理(Implicit function theorem)

通过之前博文学习的反函数定理,雅可比矩阵等推到出隐函数定理。

隐函数定理的陈述

首先,让我们明确隐函数定理要说什么:

隐函数定理:设 $ F: \mathbb{R}^{n+m} \to \mathbb{R}^m $ 是 $ C^1 $ 函数,点 $ (a,b) \in \mathbb{R}^n \times \mathbb{R}^m $ 满足:

  1. $ F(a,b) = 0 $
  2. $ \frac{\partial F}{\partial y}(a,b) $ 是可逆的 $ m \times m $ 矩阵

则存在 $ a $ 的邻域 $ U $ 和 $ b $ 的邻域 $ V $,以及 $ C^1 $ 函数 $ g: U \to V $,使得:

  • $ g(a) = b $
  • 对所有 $ x \in U $,有 $ F(x, g(x)) = 0 $

从反函数定理推导隐函数定理

步骤 1:构造辅助函数

定义函数 $ G: \mathbb{R}^{n+m} \to \mathbb{R}^{n+m} $:

$ G(x,y) = (x, F(x,y)) $

其中 $ x \in \mathbb{R}^n $,$ y \in \mathbb{R}^m $。

步骤 2:计算雅可比矩阵

$ G $ 的雅可比矩阵是:

$ DG(x,y) = \begin{pmatrix}
I_n & 0 \\
\frac{\partial F}{\partial x} & \frac{\partial F}{\partial y}
\end{pmatrix} $

其中 $ I_n $ 是 $ n \times n $ 单位矩阵。

附录里面的给出这一步的详细推导。

步骤 3:验证雅可比矩阵可逆

在点 $ (a,b) $ 处,由于 $ \frac{\partial F}{\partial y}(a,b) $ 可逆,我们可以计算:

$ \det(DG(a,b)) = \det(I_n) \cdot \det\left(\frac{\partial F}{\partial y}(a,b)\right) \neq 0 $

因此 $ DG(a,b) $ 是可逆的。

步骤 4:应用反函数定理

由反函数定理,存在 $ (a,b) $ 的邻域 $ W $ 和 $ G(a,b) = (a,0) $ 的邻域 $ W’ $,使得 $ G: W \to W’ $ 有 $ C^1 $ 逆函数 $ G^{-1} $。

步骤 5:构造隐函数

设 $ G^{-1}(x,z) = (H_1(x,z), H_2(x,z)) $,其中 $ H_1: W’ \to \mathbb{R}^n $,$ H_2: W’ \to \mathbb{R}^m $。

由于 $ G \circ G^{-1} = \text{原来映射出的值}$,我们有:$ G(H_1(x,z), H_2(x,z)) = (x,z) $

展开得:$ (H_1(x,z), F(H_1(x,z), H_2(x,z))) = (x,z) $

这给出:

  1. $ H_1(x,z) = x $
  2. $ F(x, H_2(x,z)) = z $

步骤 6:定义隐函数

取 $ z = 0 $,定义 $ g(x) = H_2(x,0) $。

由于 $ G^{-1}(a,0) = (a,b) $,我们有 $ g(a) = H_2(a,0) = b $。

对于 $ x $ 在 $ a $ 的适当邻域内,由步骤5的第二个等式:

$ F(x, g(x)) = F(x, H_2(x,0)) = 0 $

通俗理解整个过程

如果 $G$ 有反函数 $G^{-1}$,那么:

  • 给定 $(x, 0)$,$G^{-1}$ 能告诉我们对应的 $(x, y)$
  • 这个对应中的$y$ 正好满足$F(x, y) = 0$。

附录:推导DG(x,y)的左上角为什么是单位矩阵

我来详细推导为什么雅可比矩阵 $ DG(x,y) $ 的左上角是单位矩阵 $ I_n $。

回顾函数定义

我们定义了函数 $ G: \mathbb{R}^{n+m} \to \mathbb{R}^{n+m} $:

$ G(x,y) = (x, F(x,y)) $

其中:

  • $ x = (x_1, x_2, …, x_n) \in \mathbb{R}^n $
  • $ y = (y_1, y_2, …, y_m) \in \mathbb{R}^m $
  • $ F: \mathbb{R}^{n+m} \to \mathbb{R}^m $

分解 $ G $ 的分量

我们可以将 $ G $ 写成分量形式:

$ G(x,y) = \begin{pmatrix}
g_1(x,y) \\
g_2(x,y) \\
\vdots \\
g_n(x,y) \\
g_{n+1}(x,y) \\
\vdots \\
g_{n+m}(x,y)
\end{pmatrix} = \begin{pmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n \\
F_1(x,y) \\
\vdots \\
F_m(x,y)
\end{pmatrix} $

计算雅可比矩阵的元素

雅可比矩阵 $ DG(x,y) $ 的第 $ (i,j) $ 元素是 $ \frac{\partial g_i}{\partial x_j} $ 或 $ \frac{\partial g_i}{\partial y_k} $。

对于前 $ n $ 行($ i = 1, 2, …, n $):

由于 $ g_i(x,y) = x_i $,我们有:

  • 当 $ j \leq n $ 时:$ \frac{\partial g_i}{\partial x_j} = \frac{\partial x_i}{\partial x_j} = \begin{cases} 1 & \text{如果 } i = j \ 0 & \text{如果 } i \neq j \end{cases} $
  • 当 $ j > n $ 时(即对 $ y_k $ 求导):$ \frac{\partial g_i}{\partial y_k} = \frac{\partial x_i}{\partial y_k} = 0 $

构造雅可比矩阵

因此,雅可比矩阵的形式是:

$ DG(x,y) = \begin{pmatrix}
\frac{\partial x_1}{\partial x_1} & \cdots & \frac{\partial x_1}{\partial x_n} & \frac{\partial x_1}{\partial y_1} & \cdots & \frac{\partial x_1}{\partial y_m} \\
\vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\
\frac{\partial x_n}{\partial x_1} & \cdots & \frac{\partial x_n}{\partial x_n} & \frac{\partial x_n}{\partial y_1} & \cdots & \frac{\partial x_n}{\partial y_m} \\
\frac{\partial F_1}{\partial x_1} & \cdots & \frac{\partial F_1}{\partial x_n} & \frac{\partial F_1}{\partial y_1} & \cdots & \frac{\partial F_1}{\partial y_m} \\
\vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\
\frac{\partial F_m}{\partial x_1} & \cdots & \frac{\partial F_m}{\partial x_n} & \frac{\partial F_m}{\partial y_1} & \cdots & \frac{\partial F_m}{\partial y_m}
\end{pmatrix} $

代入我们计算的值:

$ DG(x,y) = \begin{pmatrix}
1 & 0 & \cdots & 0 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 & 0 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & 1 & 0 & \cdots & 0 \\
\frac{\partial F_1}{\partial x_1} & \cdots & \frac{\partial F_1}{\partial x_n} & \frac{\partial F_1}{\partial y_1} & \cdots & \frac{\partial F_1}{\partial y_m} \\
\vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\
\frac{\partial F_m}{\partial x_1} & \cdots & \frac{\partial F_m}{\partial x_n} & \frac{\partial F_m}{\partial y_1} & \cdots & \frac{\partial F_m}{\partial y_m}
\end{pmatrix} $

这就是为什么左上角是 $ n \times n $ 单位矩阵 $ I_n $,右上角是 $ n \times m $ 零矩阵。

ML的数学基石-隐函数定理(Implicit function theorem)

https://cl0und.xyz/2025/05/25/ML的数学基石-隐函数定理(implicit-function-theorem)/

Author

李三(cl0und)

Posted on

2025-05-25

Updated on

2025-05-25

Licensed under