带非正定临近项的乘子交替方向法的收敛速率

王逸云; 欧小庆; 李高西

doi:10.13718/j.cnki.xdzk.2018.03.015

摘要: 研究了带非正定临近正则项的乘子交替方向法(ADMM)的收敛速度.通过引入松弛因子改进拉格朗日乘子的迭代步长，并在适当的参数条件下建立了带非正定临近正则项的ADMM在遍历意义下的收敛速率.

Abstract: In this paper, we mainly investigate the convergence rate of ADMM with a positive-indefinite proximal term. We improve the iterative step size of the Lagrangian multiplier by introducing a relaxation factor, and establish the convergence rate of ADMM with a positive-indefinite proximal term in the ergodic sense under suitable assumptions on parameters.

Key words:

convex programming problem /
alternating direction method of multipliers /
positive-indefinite proximal term /
convergence rate .

全文HTML

本文考虑解决以下的一类线性约束凸优化问题

其中：θ₁(x)：$ {{\mathbb{R}}^{{{\mathit{n}}_{\rm{1}}}}}\to \mathbb{R}$，θ₂(y)：$ {{\mathbb{R}}^{{{\mathit{n}}_{\rm{2}}}}}\to \mathbb{R}$是凸函数(但不一定光滑)；矩阵$ \mathit{\boldsymbol{A}}\in {{\mathbb{R}}^{\mathit{m}\times {{\mathit{n}}_{\rm{1}}}}}, \mathit{\boldsymbol{B}}\in {{\mathbb{R}}^{\mathit{m}\times {{\mathit{n}}_{2}}}}$；向量$ \mathit{\boldsymbol{b}}\in {{\mathbb{R}}^{\mathit{m}}};\mathscr{X}\subset {{\mathbb{R}}^{{{\mathit{n}}_{\rm{1}}}}}$与$ \mathscr{Y}\subset {{\mathbb{R}}^{{{\mathit{n}}_{\rm{2}}}}}$是给定的闭凸集.在本文中，假设问题(1)的解集是非空的.将问题(1)的增广Lagrange函数定义为

其中：λ∈$ {{\mathbb{R}}^{\mathit{m}}}$为Lagrange乘子，β＞0为罚因子.

经典的乘子交替方向法(ADMM)主要是为了解决带约束的凸优化问题，最先在20世纪70年代中期由文献[1-2]提出. ADMM被广泛地应用于各个领域，如机器学习、图像处理、统计学习、无线网络等方面.原始的ADMM形式如下：

运行ADMM(2)时，为了能够求得唯一的点(x^k+1，y^k+1)，通常通过增加一个平方临近项来正则化(2)式的子问题.不失一般性，可以只讨论正则化ADMM(2)第二步子问题的情形.文献[3-4]将算法进一步改进成下面的形式：

其中$ \mathit{\boldsymbol{D}}\in {{\mathbb{R}}^{{{\mathit{n}}_{2}}\times {{\mathit{n}}_{2}}}}$为正定矩阵.通常，在很多文献中都会要求矩阵D必须要满足正定性，在(3)式中，$ \frac{1}{2}$‖y-y^k‖_D²就是添加的平方临近项.另外，也可以考虑对ADMM(2)的第一、二步都进行正则化的情形，可以参考文献[5].进一步，文献[6]提出，PD-ADMM(3)中的矩阵D可以不满足正定性，若取D=τγI_n₂-βB^TB，其中γ＞β‖B^TB‖，τ∈(0，1)，显然D此时不一定正定.此时，平方正则项$ \frac{1}{2}$‖y-y^k‖_D²在目标函数中所占比重减少，y的迭代步长变大.特别地，文献[6]说明了当取τ=0. 8时为最佳值，并且证明了τ=0. 8时算法的收敛性及其在遍历意义下的收敛速率.另一方面，文献[7]对原始的增广拉格朗日算法(ALM)进行了一些改进，扩大了生成Lagrange乘子λ的步长，从而加快收敛速度.与文献[6]类似，文献[7]中还提出了平方临近项中的矩阵D可以为非正定的矩阵，即把原始的ALM改进为

其中：D₀=D-(1-τ)βA^TA，τ∈(0，1)，D∈$ {{\mathbb{R}}^{\mathit{l}}}$是任意给定的正定矩阵；Lagrange函数L(x，λ)=θ(x)-λ^T(Ax-b).文献[1]中确定当系数τ和γ满足数量关系$ \mathit{\tau >}\frac{2+\mathit{\gamma }}{4}$时，算法PIDP-ALM(4)仍然保持收敛性.

受文献[6-7]的启发，本文考虑将文献[6]中带有非正定正则项的ADMM算法进行改进，引入松弛变量γ，对生成Lagrange乘子λ的子问题步长进行调整.本文将讨论如下算法1：

其中：D₀=D-(1-τ)βB^TB，D∈$ {{\mathbb{R}}^{\mathit{l}}}$是任意给定的正定矩阵，$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)$；松弛变量$ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$.另外在本文中设罚参数β＞1且为一固定值.相对于文献[6]，本文中对生成Lagrange乘子λ的子问题引入松弛变量γ，使得对偶变量的迭代步长范围变大，更具有一般性，在理论上有更好的计算性能，并且非正定矩阵D₀中的系数τ，松弛变量γ与罚参数β之间产生了相互约束的作用.

1. 预备知识

本节将回顾一些本文所涉及的主要理论基础知识.

在$ \mathscr{X}\times \mathscr{Y}\times {{\mathbb{R}}^{\mathit{m}}}$上定义问题(1)的Lagrange函数

其中λ∈$ {{\mathbb{R}}^{\mathit{m}}}$为Lagrange乘子.点((x^*，y^*)，λ^*)若满足

则被称为Lagrange函数的鞍点.鞍点问题等价于下面的变分不等式组：

如果记

以及

问题(6)可以写成变分不等式

将问题(8)的解集记作Ω^*.定义在(7)式中的算子F是一个带有斜对称矩阵的仿射单调算子，并且对于任意的ω，ω∈Ω有

引理1^[6] 设$ \mathscr{X}\in {{\mathbb{R}}^{\mathit{n}}}$是一个闭凸集合，θ(x)和f(x)是定义在$ \mathscr{X}$上的凸函数.若函数f是可微的，且问题min{θ(x)+f(x)|x∈$ \mathscr{X}$}的解集是非空的.则有

当且仅当存在x^*∈ $ \mathscr{X}$，θ(x)-θ(x^*)+(x-x^*)^T▽f(x^*)≥0，∀x∈ $ \mathscr{X}$.

2. 算法1的预估校正形式

本节将用预估校正方法解释算法1，这样的形式有助于在后文中对算法的收敛速率进行分析.首先定义

由引理1知算法1的子问题可以分别写作

和

对于给定的(y^k，λ^k)算法1生成了(x^k+1，y^k+1)，分别定义$ {{{\mathit{\boldsymbol{\tilde{x}}}}}^{\mathit{k}}}={{{\mathit{\boldsymbol{\tilde{x}}}}}^{\mathit{k}\rm{+1}}}, {{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}}}={{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}\rm{+1}}}$，以及辅助变量

因此不等式(9)可以写作

另外，由λ^k+1，$ {{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$和y^k+1的定义，有

则不等式(10)可以写为

由$ {{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$的定义，有

联立(12)-(14)式，可以得到：

由(7)式中的定义，(15)式等价于变分不等式

其中

另一方面，由λ^k+1，$ {{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$和y^k+1的定义，有

因此，有

其中

由上面的内容可知，算法1从理论上可以看作是分为两个阶段的.第一步由变分不等式(16)生成一个预测点($ {{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}}}\rm{, }{{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$)；第二步再通过(18)式对($ {{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}}}\rm{, }{{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$)进行校正，生成新的迭代点(y^k+1，λ^k+1).

3. 遍历意义下的收敛速率

本节将分析算法1在遍历意义下的收敛速率.首先给出以下的几个引理：

引理2  设定义在(1)式中的矩阵B是列满秩的，罚参数β＞1.定义矩阵

则

另外，当$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)\mathit{, }\ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$时，有H$ \succ $0.

证  由(17)式和(19)式，有

等式(20)立即证得.

另一方面，

并且D为正定矩阵.因此，若矩阵$ \left( \begin{align} & \mathit{\tau \beta }{{\mathit{\boldsymbol{B}}}^{\rm{T}}}\mathit{\boldsymbol{B}}\ \ \mathit{\boldsymbol{-}}{{\mathit{\boldsymbol{B}}}^{\rm{T}}} \\ & -\mathit{\boldsymbol{B}}\ \ \ \ \ \ \ \frac{1}{\mathit{\lambda \beta }}{{\mathit{\boldsymbol{I}}}_{\mathit{m}}} \\ \end{align} \right)$为正定矩阵，则H一定正定.矩阵

由假设矩阵B是列满秩的，因此只需

即

由于$ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$，只需τ＞γ.对于任意固定的罚参数β＞1，当$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)\mathit{, }\ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$时，一定有τ＞γ，因此有H$ \succ $0.

定义对称矩阵G=Q^T+Q-M^THM，因为HM=Q，M^THM=M^TQ，有

所以

引理3  设(ω^k)为算法1所生成的序列$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$由(11)式定义，则有$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$∈Ω以及

其中G在(21)式中被定义.

由于证明过程与文献[6]中的引理2类似，故而省略.

如果矩阵G是正定的，则由(22)式很容易推导出算法1的收敛性以及在遍历意义下的收敛速率.本文需要处理的难点在于定义在(21)式中的矩阵G不一定是正定的，为了解决这个问题，考虑寻找($ {{\mathit{\boldsymbol{v}}}^{\mathit{k}}}-{{{\mathit{\boldsymbol{\tilde{v}}}}}^{\mathit{k}}}$)^TG($ {{\mathit{\boldsymbol{v}}}^{\mathit{k}}}-{{{\mathit{\boldsymbol{\tilde{v}}}}}^{\mathit{k}}}$)的一个下界.

引理4  设(ω^k)为算法1所生成的序列，$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$由(11)式定义，则有

证  由(21)式G的定义和$ {{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}}}$=y^k+1，有

而从

有

所以

和

将(25)式和(26)式代入(24)式中，有

接下来处理(27)式右边的交叉项，由Cauchy-Schwarz不等式以及γ∈(0，1)知

结合(27)式和(28)式，即可得到(23)式.

由引理3和引理4可以得到下面的引理：

引理5  设(ω^k)为算法1所生成的序列，$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$由(11)式定义，罚参数β＞1，则对任意的$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)\mathit{, }\ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$有

证  (29)式可直接由(22)式和(23)式得到.

由(29)式，结合文献[6]中第6部分中关于IP-LADMM的收敛性证明过程，可类似推出算法1的收敛性成立，故此处省略.

下面分析算法1在遍历意义下的收敛速率.

定理1  设(ω^k)为算法1所生成的序列，$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$定义在(11)式中，罚参数β＞1，则对任意的$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)\mathit{, }\ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$以及迭代次数t有

其中

证  由(29)式，且其中φ(v^k，v^k+1)为非负函数，有

从k=1，2，…，t对(31)式进行求和，有

因为θ(·)是凸函数，并且

所以有

结合(31)式，即可得到(30)式.

参考文献 (7)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

[1]	doi: http://www.ams.org/mathscinet-getitem?mr=349016 GLOWINSKI R, MARROCCO A. Sur l'approximation, Paréléments Finis D'ordre 1, et la Résolution, par Pénalisation-Dualité d'une Classe de Problémes de Dirichlet non Linéaires[J]. Journal of Equine Veterinary Science, 1975, 2(R-2): 41-76.
[2]	GABAY D, MERCIER B. A Dual Algorithm for the Solution of Nonlinear Variational Problems Via Finite Element Approximation[J]. Comput Math Appl, 1976, 2(1): 17-40. doi: 10.1016/0898-1221(76)90003-1
[3]	doi: http://www.ams.org/mathscinet-getitem?mr=2983026 YANG J F, YUAN X M. Linearized Augmented Lagrangian and Alternating Direction Methods for Nuclear Norm Minimization[J]. Math Comp, 2013, 82(281): 301-329.
[4]	ZHANG X Q, BURGER M, OSHER S. A Unified Primal-Dual Algorithm Framework Based on Bergman Iteration[J]. J Sci Comput, 2011, 46(1): 20-46. doi: 10.1007/s10915-010-9408-8
[5]	HE B S, LIAO L Z, HAN D, et al. A New Inexact Alternating Directions Method for Monotone Variational Inequalities[J]. Math Program, 2002, 92(1): 103-118. doi: 10.1007/s101070100280
[6]	HE B S, MA F, YUAN X M. Linearized Alternating Direction Method of Multipliers Via Positive-Indefinite Proximal Regularization for Convex Programming[DB/OL]. (2016-7-31)[2017-5-20]. http://www.optimization-online.org/DB_HTML/2016/07/5569.html.
[7]	HE B S, MA F, YUAN X M. Positive-Indefinite Proximal Augmented Lagrangian Method and its Application to Full Jacobian Splitting for Multi-Block Separable Convex Minimization Problems[DB/OL]. (2016-9-15)[2017-5-20]. http://www.optimization-online.org/DB_HTML/2016/09/5631.html.

留言板