Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)

发布时间:2017-7-9 7:09:43编辑:www.fx114.net 分享查询网我要评论
本篇文章主要介绍了"Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题) ",主要涉及到Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题) 方面的内容,对于Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题) 感兴趣的同学可以参考一下。

假设我们要求解以下的最小化问题: $min_xf(x)$

如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解:

$x_{k+1} = x_k - a\Delta f(x_k)$

如果$\Delta f(x)$满足L-Lipschitz,即: 

那么我们可以在点$x_k$附近把$f(x)$近似为: 

把上面式子中各项重新排列下,可以得到: 

 

这里$\varphi (x_k)$不依赖于x,因此可以忽略。

 显然,$\hat f(x, x_k)$的最小值在 

 获得。所以,从这个角度看的话,GD的每次迭代是在最小化原目标函数的一个二次近似函数.

在很多最小化问题中,我们往往会加入非光滑的惩罚项$g(x)$, 比如常见的L1惩罚: $g(x) = ||x||_1$ .这个时候,GD就不好直接推广了。但上面的二次近似思想却可以推广到这种情况:

 

这就是所谓的Proximal Gradient Descent (PGD)算法。对于上式,可先计算$z = x_k - \frac{1}{L}\Delta f(x_k)$, 然后求解

 

http://blog.csdn.net/bingecuilab/article/details/50628634

 

 

 

 


上一篇:The 4 Essentials of Video Content Marketing Success
下一篇:Java/JSP/JS Debug笔记

相关文章

相关评论

本站评论功能暂时取消,后续此功能例行通知。

一、不得利用本站危害国家安全、泄露国家秘密,不得侵犯国家社会集体的和公民的合法权益,不得利用本站制作、复制和传播不法有害信息!

二、互相尊重,对自己的言论和行为负责。

好贷网好贷款