矩阵分解

2018/12/16

特征分解

对于方阵 $A$ 和非零向量 $x$ , 如果 $A x = λ x$ ,表征矩阵 $A$ 乘以向量 $x$ 后不改变向量的值， $x$ 称为特征向量， $λ$ 为特征值。特征向量可以看成是构成矩阵的一组基（向量空间），特征值表示这组基的伸缩倍数。

也就是说 $(A - λ I) x = 0$ , 矩阵 $A - λ I$ 必须是奇异矩阵, $d e t (A - λ I) = 0$ 。

$A$ 有 $n$ 个线性无关的特征向量（特征向量构成的矩阵 $X$ 可逆），可以被分解为:

$A = X Λ X^{- 1}$

$X$ 为特征向量构成的矩阵， $Λ$ 为特征值构成的对角矩阵

如果特征值各不相同，显然特征向量线性无关
实对称矩阵的特征值均为实数

如果 $A$ 为对称矩阵时，特征向量矩阵为正交矩阵

$A = Q Λ Q^{- 1} = Q Λ Q^{T}$

奇异值分解

矩阵不是方阵或者特征值个数不足够的时候，无法进行特征值分解，并且仅仅在方阵是对称矩阵的时候可以被分解成正交矩阵的形式。奇异值分解（SVD, singular value decomposition)类似于特征分解，目的是把任意矩阵分解成正交矩阵与对角矩阵乘积形式, $U$ 和 $V$ 为正交矩阵， $Σ$ 称为由奇异值构成的对角矩阵。

$A = U Σ V^{T}$

$Σ$ 对角线上的值称为矩阵的奇异值， $U$ 和 $V$ 列向量分别称为左右奇异向量。

$A A^{T} = U Σ V^{T} * V Σ^{T} U^{T} = U Σ^{2} U^{T}$

所以 $σ_{i}^{2}$ 是 $A A^{T}$ 的特征值， $U$ 是相应的特征向量。同理所以 $σ_{i}^{2}$ 是 $A^{T} A$ 的特征值， $V$ 是相应的特征向量。对称矩阵的特征值分解是奇异值分解的一种特殊情况。

奇异值分解的说明**

矩阵的四组空间

零空间是指 $A x = 0$ 的解构成的向量空间，是 $R^{n}$ 子空间。零空间基的个数为 $n - r a n k (A)$

列空间是指 $A x = b$ （ $b$ 是非零向量）的解构成的向量空间，是 $R^{m}$ 的子空间，基的个数为 $r a n k (A)$ , 其余的 $n - r a n k (A)$ 个列向量都可以由前面 $r a n k (A)$ 个列向量线性组合构成。

同理 $A$ 转置的零空间是 $R^{m}$ 的子空间，基的个数为 $m - r a n k (A)$ ；列空间是是 $R^{n}$ 子空间的子空间，基的个数为 $r a n k (A)$

显然行空间与零空间正交，列空间与转置矩阵的零空间正交。当 $b$ 不在矩阵的列空间内时， $A x = b$ 无解，求最优解就是指 $e = b - A x$ 的最小值（最小二乘法，向量模最小）。

对 $A$ 的行向量求一组正交基 $v_{n}$ , 列向量的一组正交基 $u_{n}$ , 根据秩为 $r$ 矩阵的四组空间。

$u_{1}, \dots u_{r}$ , 列空间一组正交基
$u_{r + 1}, \dots u_{m}$ , 转置矩阵零空间的一组正交基
$v_{1}, \dots v_{r}$ , 转置矩阵列空间（行空间）一组正交基
$v_{r + 1},, \dots v_{n}$ , 矩阵零空间的一组正交基

显然

$A v_{r} = σ_{r} u_{r}$

所以

$A V_{r} = U_{r} Σ_{r} A [\begin{matrix} v_{1} \dots v_{r} \end{matrix}] = [\begin{matrix} u_{1} \dots u_{r} \end{matrix}] [\begin{matrix} σ_{1} \\ ⋱ \\ σ_{r} \end{matrix}]$

附上零空间

$A V = U Σ A [\begin{matrix} v_{1} \dots v_{r} \dots v_{n} \end{matrix}] = [\begin{matrix} u_{1} \dots u_{r} \dots u_{m} \end{matrix}] [\begin{matrix} σ_{1} \\ ⋱ \\ σ_{r} \end{matrix}]$

其中 $Σ$ 为$m n $, $V$ 为$n n $, $U$ 为$m m $

SVD矩阵分解形式

$A = U Σ V^{- 1} = U Σ V^{T} = u_{1} σ_{1} v_{1}^{T} + \dots + u_{r} σ_{r} v_{r}^{T}$