在一些非深度学习的方法中,目标函数由样本、权重的矩阵形式组成。假设样本集合矩阵为$X$,样本均值矩阵为$M$,权重矩阵为$W$,映射后的特征为$W^TX$,要令映射后的特征方差最大,则损失函数表示为:
$$\max_{W}||W^TX-W^TM||^2$$
L2 Norm与矩阵的迹
优化目标中带有L2 Norm的情况下求导计算比较复杂,可以将其转化为矩阵的迹的形式。假设有矩阵$A$:
$$A=\begin{pmatrix} a_1&a_2&a_3\\ b_1&b_2&b_3\\ c_1&c_2&c_3 \end{pmatrix}$$
则$A$的L2 Norm为
$$||A||^2=a_1^2+a_2^2+a_3^2+b_1^2+\cdots+c_3^2$$
而$A^TA$的主对角线为
$$A^TA=\begin{pmatrix} a_1^2+a_2^2+a_3&\cdots&\cdots\\ \cdots&b_1^2+b_2^2+b_3&\cdots\\ \cdots&\cdots&c_1^2+c_2^2+c_3 \end{pmatrix}$$
则可以将L2 Norm转化为矩阵的迹形式:
$$||A||^2=trace(A^TA)$$
并利用以下规则求导:
$$\frac{trace(A^TA)}{\partial A}=2A$$
最后令导数为0来计算参数矩阵。