优化问题中的矩阵运算

Posted on
Algorithm

在一些非深度学习的方法中,目标函数由样本、权重的矩阵形式组成。假设样本集合矩阵为$X$,样本均值矩阵为$M$,权重矩阵为$W$,映射后的特征为$W^TX$,要令映射后的特征方差最大,则损失函数表示为:

$$\max_{W}||W^TX-W^TM||^2$$

L2 Norm与矩阵的迹

优化目标中带有L2 Norm的情况下求导计算比较复杂,可以将其转化为矩阵的迹的形式。假设有矩阵$A$:

$$A=\begin{pmatrix} a_1&a_2&a_3\\ b_1&b_2&b_3\\ c_1&c_2&c_3 \end{pmatrix}$$

则$A$的L2 Norm为

$$||A||^2=a_1^2+a_2^2+a_3^2+b_1^2+\cdots+c_3^2$$

而$A^TA$的主对角线为

$$A^TA=\begin{pmatrix} a_1^2+a_2^2+a_3&\cdots&\cdots\\ \cdots&b_1^2+b_2^2+b_3&\cdots\\ \cdots&\cdots&c_1^2+c_2^2+c_3 \end{pmatrix}$$

则可以将L2 Norm转化为矩阵的迹形式:

$$||A||^2=trace(A^TA)$$

并利用以下规则求导:

$$\frac{trace(A^TA)}{\partial A}=2A$$

最后令导数为0来计算参数矩阵。