ML的数学基石-隐函数定理(Implicit function theorem)
通过之前博文学习的反函数定理,雅可比矩阵等推到出隐函数定理。
隐函数定理的陈述
首先,让我们明确隐函数定理要说什么:
隐函数定理:设 $ F: \mathbb{R}^{n+m} \to \mathbb{R}^m $ 是 $ C^1 $ 函数,点 $ (a,b) \in \mathbb{R}^n \times \mathbb{R}^m $ 满足:
- $ F(a,b) = 0 $
- $ \frac{\partial F}{\partial y}(a,b) $ 是可逆的 $ m \times m $ 矩阵
则存在 $ a $ 的邻域 $ U $ 和 $ b $ 的邻域 $ V $,以及 $ C^1 $ 函数 $ g: U \to V $,使得:
- $ g(a) = b $
- 对所有 $ x \in U $,有 $ F(x, g(x)) = 0 $
从反函数定理推导隐函数定理
步骤 1:构造辅助函数
定义函数 $ G: \mathbb{R}^{n+m} \to \mathbb{R}^{n+m} $:
$ G(x,y) = (x, F(x,y)) $
其中 $ x \in \mathbb{R}^n $,$ y \in \mathbb{R}^m $。
步骤 2:计算雅可比矩阵
$ G $ 的雅可比矩阵是:
$ DG(x,y) = \begin{pmatrix}
I_n & 0 \\
\frac{\partial F}{\partial x} & \frac{\partial F}{\partial y}
\end{pmatrix} $
其中 $ I_n $ 是 $ n \times n $ 单位矩阵。
附录里面的给出这一步的详细推导。
步骤 3:验证雅可比矩阵可逆
在点 $ (a,b) $ 处,由于 $ \frac{\partial F}{\partial y}(a,b) $ 可逆,我们可以计算:
$ \det(DG(a,b)) = \det(I_n) \cdot \det\left(\frac{\partial F}{\partial y}(a,b)\right) \neq 0 $
因此 $ DG(a,b) $ 是可逆的。
步骤 4:应用反函数定理
由反函数定理,存在 $ (a,b) $ 的邻域 $ W $ 和 $ G(a,b) = (a,0) $ 的邻域 $ W’ $,使得 $ G: W \to W’ $ 有 $ C^1 $ 逆函数 $ G^{-1} $。
步骤 5:构造隐函数
设 $ G^{-1}(x,z) = (H_1(x,z), H_2(x,z)) $,其中 $ H_1: W’ \to \mathbb{R}^n $,$ H_2: W’ \to \mathbb{R}^m $。
由于 $ G \circ G^{-1} = \text{原来映射出的值}$,我们有:$ G(H_1(x,z), H_2(x,z)) = (x,z) $
展开得:$ (H_1(x,z), F(H_1(x,z), H_2(x,z))) = (x,z) $
这给出:
- $ H_1(x,z) = x $
- $ F(x, H_2(x,z)) = z $
步骤 6:定义隐函数
取 $ z = 0 $,定义 $ g(x) = H_2(x,0) $。
由于 $ G^{-1}(a,0) = (a,b) $,我们有 $ g(a) = H_2(a,0) = b $。
对于 $ x $ 在 $ a $ 的适当邻域内,由步骤5的第二个等式:
$ F(x, g(x)) = F(x, H_2(x,0)) = 0 $
通俗理解整个过程
如果 $G$ 有反函数 $G^{-1}$,那么:
- 给定 $(x, 0)$,$G^{-1}$ 能告诉我们对应的 $(x, y)$
- 这个对应中的$y$ 正好满足$F(x, y) = 0$。
附录:推导DG(x,y)的左上角为什么是单位矩阵
我来详细推导为什么雅可比矩阵 $ DG(x,y) $ 的左上角是单位矩阵 $ I_n $。
回顾函数定义
我们定义了函数 $ G: \mathbb{R}^{n+m} \to \mathbb{R}^{n+m} $:
$ G(x,y) = (x, F(x,y)) $
其中:
- $ x = (x_1, x_2, …, x_n) \in \mathbb{R}^n $
- $ y = (y_1, y_2, …, y_m) \in \mathbb{R}^m $
- $ F: \mathbb{R}^{n+m} \to \mathbb{R}^m $
分解 $ G $ 的分量
我们可以将 $ G $ 写成分量形式:
$ G(x,y) = \begin{pmatrix}
g_1(x,y) \\
g_2(x,y) \\
\vdots \\
g_n(x,y) \\
g_{n+1}(x,y) \\
\vdots \\
g_{n+m}(x,y)
\end{pmatrix} = \begin{pmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n \\
F_1(x,y) \\
\vdots \\
F_m(x,y)
\end{pmatrix} $
计算雅可比矩阵的元素
雅可比矩阵 $ DG(x,y) $ 的第 $ (i,j) $ 元素是 $ \frac{\partial g_i}{\partial x_j} $ 或 $ \frac{\partial g_i}{\partial y_k} $。
对于前 $ n $ 行($ i = 1, 2, …, n $):
由于 $ g_i(x,y) = x_i $,我们有:
- 当 $ j \leq n $ 时:$ \frac{\partial g_i}{\partial x_j} = \frac{\partial x_i}{\partial x_j} = \begin{cases} 1 & \text{如果 } i = j \ 0 & \text{如果 } i \neq j \end{cases} $
- 当 $ j > n $ 时(即对 $ y_k $ 求导):$ \frac{\partial g_i}{\partial y_k} = \frac{\partial x_i}{\partial y_k} = 0 $
构造雅可比矩阵
因此,雅可比矩阵的形式是:
$ DG(x,y) = \begin{pmatrix}
\frac{\partial x_1}{\partial x_1} & \cdots & \frac{\partial x_1}{\partial x_n} & \frac{\partial x_1}{\partial y_1} & \cdots & \frac{\partial x_1}{\partial y_m} \\
\vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\
\frac{\partial x_n}{\partial x_1} & \cdots & \frac{\partial x_n}{\partial x_n} & \frac{\partial x_n}{\partial y_1} & \cdots & \frac{\partial x_n}{\partial y_m} \\
\frac{\partial F_1}{\partial x_1} & \cdots & \frac{\partial F_1}{\partial x_n} & \frac{\partial F_1}{\partial y_1} & \cdots & \frac{\partial F_1}{\partial y_m} \\
\vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\
\frac{\partial F_m}{\partial x_1} & \cdots & \frac{\partial F_m}{\partial x_n} & \frac{\partial F_m}{\partial y_1} & \cdots & \frac{\partial F_m}{\partial y_m}
\end{pmatrix} $
代入我们计算的值:
$ DG(x,y) = \begin{pmatrix}
1 & 0 & \cdots & 0 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 & 0 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & 1 & 0 & \cdots & 0 \\
\frac{\partial F_1}{\partial x_1} & \cdots & \frac{\partial F_1}{\partial x_n} & \frac{\partial F_1}{\partial y_1} & \cdots & \frac{\partial F_1}{\partial y_m} \\
\vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\
\frac{\partial F_m}{\partial x_1} & \cdots & \frac{\partial F_m}{\partial x_n} & \frac{\partial F_m}{\partial y_1} & \cdots & \frac{\partial F_m}{\partial y_m}
\end{pmatrix} $
这就是为什么左上角是 $ n \times n $ 单位矩阵 $ I_n $,右上角是 $ n \times m $ 零矩阵。
ML的数学基石-隐函数定理(Implicit function theorem)
https://cl0und.xyz/2025/05/25/ML的数学基石-隐函数定理(implicit-function-theorem)/