留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

带非正定临近项的乘子交替方向法的收敛速率

上一篇

下一篇

王逸云, 欧小庆, 李高西. 带非正定临近项的乘子交替方向法的收敛速率[J]. 西南大学学报(自然科学版), 2018, 40(3): 101-108. doi: 10.13718/j.cnki.xdzk.2018.03.015
引用本文: 王逸云, 欧小庆, 李高西. 带非正定临近项的乘子交替方向法的收敛速率[J]. 西南大学学报(自然科学版), 2018, 40(3): 101-108. doi: 10.13718/j.cnki.xdzk.2018.03.015
Yi-yun WANG, Xiao-qing OU, Gao-xi LI. On the Convergence Rate of ADMM with a Positive-Indefinite Proximal Term[J]. Journal of Southwest University Natural Science Edition, 2018, 40(3): 101-108. doi: 10.13718/j.cnki.xdzk.2018.03.015
Citation: Yi-yun WANG, Xiao-qing OU, Gao-xi LI. On the Convergence Rate of ADMM with a Positive-Indefinite Proximal Term[J]. Journal of Southwest University Natural Science Edition, 2018, 40(3): 101-108. doi: 10.13718/j.cnki.xdzk.2018.03.015

带非正定临近项的乘子交替方向法的收敛速率

  • 基金项目: 重庆市基础与前沿研究项目(cstc2016jcyjA0239)
详细信息
    作者简介:

    王逸云(1993-),女,湖北洪湖人,硕士研究生,主要从事最优化理论、算法及应用的研究 .

  • 中图分类号: O224

On the Convergence Rate of ADMM with a Positive-Indefinite Proximal Term

  • 摘要: 研究了带非正定临近正则项的乘子交替方向法(ADMM)的收敛速度.通过引入松弛因子改进拉格朗日乘子的迭代步长,并在适当的参数条件下建立了带非正定临近正则项的ADMM在遍历意义下的收敛速率.
  • 加载中
  • [1] doi: http://www.ams.org/mathscinet-getitem?mr=349016 GLOWINSKI R, MARROCCO A. Sur l'approximation, Paréléments Finis D'ordre 1, et la Résolution, par Pénalisation-Dualité d'une Classe de Problémes de Dirichlet non Linéaires[J]. Journal of Equine Veterinary Science, 1975, 2(R-2): 41-76.
    [2] GABAY D, MERCIER B. A Dual Algorithm for the Solution of Nonlinear Variational Problems Via Finite Element Approximation[J]. Comput Math Appl, 1976, 2(1): 17-40. doi: 10.1016/0898-1221(76)90003-1
    [3] doi: http://www.ams.org/mathscinet-getitem?mr=2983026 YANG J F, YUAN X M. Linearized Augmented Lagrangian and Alternating Direction Methods for Nuclear Norm Minimization[J]. Math Comp, 2013, 82(281): 301-329.
    [4] ZHANG X Q, BURGER M, OSHER S. A Unified Primal-Dual Algorithm Framework Based on Bergman Iteration[J]. J Sci Comput, 2011, 46(1): 20-46. doi: 10.1007/s10915-010-9408-8
    [5] HE B S, LIAO L Z, HAN D, et al. A New Inexact Alternating Directions Method for Monotone Variational Inequalities[J]. Math Program, 2002, 92(1): 103-118. doi: 10.1007/s101070100280
    [6] HE B S, MA F, YUAN X M. Linearized Alternating Direction Method of Multipliers Via Positive-Indefinite Proximal Regularization for Convex Programming[DB/OL]. (2016-7-31)[2017-5-20]. http://www.optimization-online.org/DB_HTML/2016/07/5569.html.
    [7] HE B S, MA F, YUAN X M. Positive-Indefinite Proximal Augmented Lagrangian Method and its Application to Full Jacobian Splitting for Multi-Block Separable Convex Minimization Problems[DB/OL]. (2016-9-15)[2017-5-20]. http://www.optimization-online.org/DB_HTML/2016/09/5631.html.
  • 加载中
计量
  • 文章访问数:  969
  • HTML全文浏览数:  391
  • PDF下载数:  95
  • 施引文献:  0
出版历程
  • 收稿日期:  2017-05-30
  • 刊出日期:  2018-03-20

带非正定临近项的乘子交替方向法的收敛速率

    作者简介: 王逸云(1993-),女,湖北洪湖人,硕士研究生,主要从事最优化理论、算法及应用的研究
  • 1. 西南大学 数学与统计学院,重庆 400715
  • 2. 重庆人文科技学院 管理学院,重庆 合川 401524
  • 3. 重庆工商大学 数学与统计学院,重庆 400067
基金项目:  重庆市基础与前沿研究项目(cstc2016jcyjA0239)

摘要: 研究了带非正定临近正则项的乘子交替方向法(ADMM)的收敛速度.通过引入松弛因子改进拉格朗日乘子的迭代步长,并在适当的参数条件下建立了带非正定临近正则项的ADMM在遍历意义下的收敛速率.

English Abstract

  • 本文考虑解决以下的一类线性约束凸优化问题

    其中:θ1(x):$ {{\mathbb{R}}^{{{\mathit{n}}_{\rm{1}}}}}\to \mathbb{R}$θ2(y):$ {{\mathbb{R}}^{{{\mathit{n}}_{\rm{2}}}}}\to \mathbb{R}$是凸函数(但不一定光滑);矩阵$ \mathit{\boldsymbol{A}}\in {{\mathbb{R}}^{\mathit{m}\times {{\mathit{n}}_{\rm{1}}}}}, \mathit{\boldsymbol{B}}\in {{\mathbb{R}}^{\mathit{m}\times {{\mathit{n}}_{2}}}}$;向量$ \mathit{\boldsymbol{b}}\in {{\mathbb{R}}^{\mathit{m}}};\mathscr{X}\subset {{\mathbb{R}}^{{{\mathit{n}}_{\rm{1}}}}}$$ \mathscr{Y}\subset {{\mathbb{R}}^{{{\mathit{n}}_{\rm{2}}}}}$是给定的闭凸集.在本文中,假设问题(1)的解集是非空的.将问题(1)的增广Lagrange函数定义为

    其中:λ$ {{\mathbb{R}}^{\mathit{m}}}$为Lagrange乘子,β>0为罚因子.

    经典的乘子交替方向法(ADMM)主要是为了解决带约束的凸优化问题,最先在20世纪70年代中期由文献[1-2]提出. ADMM被广泛地应用于各个领域,如机器学习、图像处理、统计学习、无线网络等方面.原始的ADMM形式如下:

    运行ADMM(2)时,为了能够求得唯一的点(xk+1yk+1),通常通过增加一个平方临近项来正则化(2)式的子问题.不失一般性,可以只讨论正则化ADMM(2)第二步子问题的情形.文献[3-4]将算法进一步改进成下面的形式:

    其中$ \mathit{\boldsymbol{D}}\in {{\mathbb{R}}^{{{\mathit{n}}_{2}}\times {{\mathit{n}}_{2}}}}$为正定矩阵.通常,在很多文献中都会要求矩阵D必须要满足正定性,在(3)式中,$ \frac{1}{2}$y-ykD2就是添加的平方临近项.另外,也可以考虑对ADMM(2)的第一、二步都进行正则化的情形,可以参考文献[5].进一步,文献[6]提出,PD-ADMM(3)中的矩阵D可以不满足正定性,若取D=τγIn2-βBTB,其中γβBTB‖,τ∈(0,1),显然D此时不一定正定.此时,平方正则项$ \frac{1}{2}$y-ykD2在目标函数中所占比重减少,y的迭代步长变大.特别地,文献[6]说明了当取τ=0. 8时为最佳值,并且证明了τ=0. 8时算法的收敛性及其在遍历意义下的收敛速率.另一方面,文献[7]对原始的增广拉格朗日算法(ALM)进行了一些改进,扩大了生成Lagrange乘子λ的步长,从而加快收敛速度.与文献[6]类似,文献[7]中还提出了平方临近项中的矩阵D可以为非正定的矩阵,即把原始的ALM改进为

    其中:D0=D-(1-τ)βATAτ∈(0,1),D$ {{\mathbb{R}}^{\mathit{l}}}$是任意给定的正定矩阵;Lagrange函数L(xλ)=θ(x)-λT(Ax-b).文献[1]中确定当系数τγ满足数量关系$ \mathit{\tau >}\frac{2+\mathit{\gamma }}{4}$时,算法PIDP-ALM(4)仍然保持收敛性.

    受文献[6-7]的启发,本文考虑将文献[6]中带有非正定正则项的ADMM算法进行改进,引入松弛变量γ,对生成Lagrange乘子λ的子问题步长进行调整.本文将讨论如下算法1:

    其中:D0=D-(1-τ)βBTBD$ {{\mathbb{R}}^{\mathit{l}}}$是任意给定的正定矩阵,$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)$;松弛变量$ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$.另外在本文中设罚参数β>1且为一固定值.相对于文献[6],本文中对生成Lagrange乘子λ的子问题引入松弛变量γ,使得对偶变量的迭代步长范围变大,更具有一般性,在理论上有更好的计算性能,并且非正定矩阵D0中的系数τ,松弛变量γ与罚参数β之间产生了相互约束的作用.

  • 本节将回顾一些本文所涉及的主要理论基础知识.

    $ \mathscr{X}\times \mathscr{Y}\times {{\mathbb{R}}^{\mathit{m}}}$上定义问题(1)的Lagrange函数

    其中λ$ {{\mathbb{R}}^{\mathit{m}}}$为Lagrange乘子.点((x*y*),λ*)若满足

    则被称为Lagrange函数的鞍点.鞍点问题等价于下面的变分不等式组:

    如果记

    以及

    问题(6)可以写成变分不等式

    将问题(8)的解集记作Ω*.定义在(7)式中的算子F是一个带有斜对称矩阵的仿射单调算子,并且对于任意的ωωΩ

    引理1[6]  设$ \mathscr{X}\in {{\mathbb{R}}^{\mathit{n}}}$是一个闭凸集合,θ(x)和f(x)是定义在$ \mathscr{X}$上的凸函数.若函数f是可微的,且问题min{θ(x)+f(x)|x$ \mathscr{X}$}的解集是非空的.则有

    当且仅当存在x*$ \mathscr{X}$θ(x)-θ(x*)+(x-x*)Tf(x*)≥0,∀x$ \mathscr{X}$.

  • 本节将用预估校正方法解释算法1,这样的形式有助于在后文中对算法的收敛速率进行分析.首先定义

    由引理1知算法1的子问题可以分别写作

    对于给定的(ykλk)算法1生成了(xk+1yk+1),分别定义$ {{{\mathit{\boldsymbol{\tilde{x}}}}}^{\mathit{k}}}={{{\mathit{\boldsymbol{\tilde{x}}}}}^{\mathit{k}\rm{+1}}}, {{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}}}={{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}\rm{+1}}}$,以及辅助变量

    因此不等式(9)可以写作

    另外,由λk+1$ {{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$yk+1的定义,有

    则不等式(10)可以写为

    $ {{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$的定义,有

    联立(12)-(14)式,可以得到:

    由(7)式中的定义,(15)式等价于变分不等式

    其中

    另一方面,由λk+1$ {{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$yk+1的定义,有

    因此,有

    其中

    由上面的内容可知,算法1从理论上可以看作是分为两个阶段的.第一步由变分不等式(16)生成一个预测点($ {{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}}}\rm{, }{{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$);第二步再通过(18)式对($ {{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}}}\rm{, }{{{\mathit{\boldsymbol{\tilde{ \lambda} \rm{ }}}}}^{\mathit{k}}}$)进行校正,生成新的迭代点(yk+1λk+1).

  • 本节将分析算法1在遍历意义下的收敛速率.首先给出以下的几个引理:

    引理2  设定义在(1)式中的矩阵B是列满秩的,罚参数β>1.定义矩阵

    另外,当$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)\mathit{, }\ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$时,有H$ \succ $0.

      由(17)式和(19)式,有

    等式(20)立即证得.

    另一方面,

    并且D为正定矩阵.因此,若矩阵$ \left( \begin{align} & \mathit{\tau \beta }{{\mathit{\boldsymbol{B}}}^{\rm{T}}}\mathit{\boldsymbol{B}}\ \ \mathit{\boldsymbol{-}}{{\mathit{\boldsymbol{B}}}^{\rm{T}}} \\ & -\mathit{\boldsymbol{B}}\ \ \ \ \ \ \ \frac{1}{\mathit{\lambda \beta }}{{\mathit{\boldsymbol{I}}}_{\mathit{m}}} \\ \end{align} \right)$为正定矩阵,则H一定正定.矩阵

    由假设矩阵B是列满秩的,因此只需

    由于$ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$,只需τγ.对于任意固定的罚参数β>1,当$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)\mathit{, }\ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$时,一定有τγ,因此有H$ \succ $0.

    定义对称矩阵G=QT+Q-MTHM,因为HM=QMTHM=MTQ,有

    所以

    引理3  设(ωk)为算法1所生成的序列$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$由(11)式定义,则有$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$Ω以及

    其中G在(21)式中被定义.

    由于证明过程与文献[6]中的引理2类似,故而省略.

    如果矩阵G是正定的,则由(22)式很容易推导出算法1的收敛性以及在遍历意义下的收敛速率.本文需要处理的难点在于定义在(21)式中的矩阵G不一定是正定的,为了解决这个问题,考虑寻找($ {{\mathit{\boldsymbol{v}}}^{\mathit{k}}}-{{{\mathit{\boldsymbol{\tilde{v}}}}}^{\mathit{k}}}$)TG($ {{\mathit{\boldsymbol{v}}}^{\mathit{k}}}-{{{\mathit{\boldsymbol{\tilde{v}}}}}^{\mathit{k}}}$)的一个下界.

    引理4  设(ωk)为算法1所生成的序列,$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$由(11)式定义,则有

      由(21)式G的定义和$ {{{\mathit{\boldsymbol{\tilde{y}}}}}^{\mathit{k}}}$=yk+1,有

    而从

    所以

    将(25)式和(26)式代入(24)式中,有

    接下来处理(27)式右边的交叉项,由Cauchy-Schwarz不等式以及γ∈(0,1)知

    结合(27)式和(28)式,即可得到(23)式.

    由引理3和引理4可以得到下面的引理:

    引理5  设(ωk)为算法1所生成的序列,$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$由(11)式定义,罚参数β>1,则对任意的$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)\mathit{, }\ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$

      (29)式可直接由(22)式和(23)式得到.

    由(29)式,结合文献[6]中第6部分中关于IP-LADMM的收敛性证明过程,可类似推出算法1的收敛性成立,故此处省略.

    下面分析算法1在遍历意义下的收敛速率.

    定理1  设(ωk)为算法1所生成的序列,$ {{{\mathit{\boldsymbol{\tilde{ \omega} \rm{ }}}}}^{\mathit{k}}}$定义在(11)式中,罚参数β>1,则对任意的$ \mathit{\tau }\in \left[\frac{1\rm{+}\mathit{\beta }}{2\mathit{\beta }}, 1 \right)\mathit{, }\ \mathit{\gamma }\in \left( 0, \frac{2}{1\rm{+}\mathit{\beta }} \right]$以及迭代次数t

    其中

      由(29)式,且其中φ(vkvk+1)为非负函数,有

    k=1,2,…,t对(31)式进行求和,有

    因为θ(·)是凸函数,并且

    所以有

    结合(31)式,即可得到(30)式.

参考文献 (7)

目录

/

返回文章
返回