Message Board

Dear readers, authors and reviewers,you can add a message on this page. We will reply to you as soon as possible!

2019 Volume 44 Issue 3
Article Contents

Xiao-qian YE, Jian-wen PENG. On Convergence Rate of Three-block APGM[J]. Journal of Southwest China Normal University(Natural Science Edition), 2019, 44(3): 12-17. doi: 10.13718/j.cnki.xsxb.2019.03.003
Citation: Xiao-qian YE, Jian-wen PENG. On Convergence Rate of Three-block APGM[J]. Journal of Southwest China Normal University(Natural Science Edition), 2019, 44(3): 12-17. doi: 10.13718/j.cnki.xsxb.2019.03.003

On Convergence Rate of Three-block APGM

More Information
  • Corresponding author: Jian-wen PENG
  • Received Date: 28/11/2017
    Available Online: 20/03/2019
  • MSC: O221.2

  • In this paper, a sufficient condition has been given for the sublinear convergence rate of the alternating proximal gradient method to solve the separable convex programming problem whose objective function is the sum of the convex functions three convex functions linked by some linear constraints.
  • 加载中
  • [1] GLOWINDKI R, MARROCCO A.Sur L'approximation, par Éléments Finis D'ordre 1, et la Résolution, par Pénalisation-Dualité, D'une Classe de Problèmes de Dirichlet Non Linéaires[J].Journal of Equine Veterinary Science, 1975, 2(R2):41-76.

    Google Scholar

    [2] GABAY D, MERCIER B.A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximation[J].Computers and Mathematics with Applications, 1976, 2(1):17-40. doi: 10.1016/0898-1221(76)90003-1

    CrossRef Google Scholar

    [3] CHEN C H, HE B S, YE Y Y, et al.The Direct Extension of ADMM for Multi-Block Convex Minimization Problems is Not Necessarily Convergent[J].Mathematical Programming, 2016, 155(1-2):57-79. doi: 10.1007/s10107-014-0826-5

    CrossRef Google Scholar

    [4] CHEN C H.On the Convergence Analysis of the Alternating Direction Method of Multipliers with Three Blocks[J].Abstract and Applied Analysis, 2013, 2013:1-7.

    Google Scholar

    [5] LIN T Y, MA S Q, ZHANG S Z.On the Sublinear Convergence Rate of Multi-Block ADMM[J].Journal of the Operations Research Society of China, 2015, 3(3):251-274. doi: 10.1007/s40305-015-0092-0

    CrossRef Google Scholar

    [6] CAI X J, HAN D R, YUAN X M.The Direct Extension of ADMM for Three-Block Separable Convex Minimization Models Is Convergent When One Function Is Strongly Convex[J].Computational Optimization and Applications, 2017, 66(1):39-73. doi: 10.1007/s10589-016-9860-y

    CrossRef Google Scholar

    [7] WANG X, YUAN X.The Linearized Alternating Direction Method of Multipliers for Dantzig Selector[J].SIAM Journal on Scientific Computing, 2012, 34(5):A2792-A2811. doi: 10.1137/110833543

    CrossRef Google Scholar

    [8] YANG J, YUAN X.Linearized Augmented Lagrangian and Alternating Direction Methods for Nuclear Norm Minimization[J].Mathematics of Computation, 2012, 82(281):301-329. doi: 10.1090/mcom/2013-82-281

    CrossRef Google Scholar

    [9] CHEN G, TEBOULLE M.A Proximal-Based Decomposition Method for Convex Minimization Problems[J].Mathematical Programming, 1994, 64(1-3):81-101. doi: 10.1007/BF01582566

    CrossRef Google Scholar

    [10] HE B, LIAO L Z, HAN D, et al.A New Inexact Alternating Directions Method for Monotone Variational Inequalities[J]. Mathematical Programming, 2002, 92(1):103-118. doi: 10.1007/s101070100280

    CrossRef Google Scholar

    [11] MA S.Alternating Proximal Gradient Method for Convex Minimization[J].Journal of Scientific Computing, 2016, 68(2):546-572. doi: 10.1007/s10915-015-0150-0

    CrossRef Google Scholar

  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Article Metrics

Article views(1650) PDF downloads(113) Cited by(0)

Access History

Other Articles By Authors

On Convergence Rate of Three-block APGM

    Corresponding author: Jian-wen PENG

Abstract: In this paper, a sufficient condition has been given for the sublinear convergence rate of the alternating proximal gradient method to solve the separable convex programming problem whose objective function is the sum of the convex functions three convex functions linked by some linear constraints.

  • 交替方向乘子法(ADMM)[1-2]是求解可分离凸优化问题的一种经典方法, 适用于求解大规模分布式问题. ADMM在机器学习、图像处理、统计学习和相关领域有广泛的应用. ADMM最早用于求解目标函数为两个凸函数的和并具有线形约束的如下凸优化问题:

    其中:其中Ai$\mathbb{R} $l×ni(i=1, 2)为给定矩阵, b$\mathbb{R} $l是给定向量, Xi$\mathbb{R} $ni(i=1, 2)为闭凸集并且fi: $\mathbb{R} $ni$\mathbb{R} $(i=1, 2)为凸函数.解决(1)式的经典的ADMM迭代程序如下

    其中: λk$\mathbb{R} $l为拉格朗日乘子, μ>0为惩罚参数.

    本文考虑求解以下具有线性约束且目标函数为3个凸函数的和的可分离凸规划问题:

    其中: Ai$\mathbb{R} $l×ni(i=1, 2, 3)为给定矩阵, b$\mathbb{R} $l是给定向量, Xi$\mathbb{R} $ni(i=1, 2, 3)为闭凸集并且fi: $\mathbb{R} $ni$\mathbb{R} $(i=1, 2, 3)为凸函数.我们的讨论是在fi(i=1, 2, 3)的邻近映射容易获得的假设下进行的.本文假设(3)式的解集非空.

    在没有任何假设的情况下, 文献[3]构造了一个例子说明了如下3块的ADMM不收敛:

    文献[4]各自在Ai(i=1, 2, 3)为单射, f2, f3强凸, 并且$ \frac{1}{\mu }$小于某个确定区域的条件下证明了(4)式全局收敛; 文献[5]在f1凸(不必强凸), f2, f3强凸且惩罚参数在一个确定区域的条件下证明了(4)式的次线性收敛率; 文献[6]在f1, f2凸, f3强凸以及其他各种附加条件下证明了(4)式的收敛性.

    为了利用fi(i=1, 2)的邻近映射的简单性, 一个比较受欢迎的技术[7-8]是线性化(2)式中xi-子问题的二次项.解决(1)式的交替邻近梯度法(APGM)的迭代程序如下

    其中τ1τ2为邻近梯度步长.文献[9]将邻近步合并入ADMM.后来, 这个思想被文献[10]推广, 并且他们还允许罚参和邻近步长随着迭代而不同.显然, (5)式中的子问题只涉及fi(i=1, 2)的邻近映射的计算.文献[11]证明了(5)式的收敛性.

    我们提出针对问题(3)的如下的APGM:

    其中: μ>0, τi>0, i=1, 2, 3.

    类似于文献[5]关于(4)式的次线性收敛率的分析, 本文研究在遍历意义下(6)式在f1凸(不必强凸), f2, f3强凸且罚参数在一个确定区域的条件下速率为$ O\left( {\frac{1}{t}} \right)$的次线性收敛率.

1.   基本定义
  • 为了后续讨论的方便和简洁, 在这一部分做一些符号说明和假设.

    记Ω=X1×X2×X3×$\mathbb{R} $p, 且记最优解为Ω*.令ω=(x1, x2, x3, λ)T, ω*=(x1*, x2*, x3*, λ*)T, 根据(3)式的一阶最优性条件, 解(3)式等同于找到ω*∈Ω*使得

    其中ξi(xi*)∈∂fi(xi*), i=1, 2, 3.

    进一步地, 下面这些假设将应用于本文后续分析.

    假设1  函数fi(i=2, 3)分别是以ηi>0(i=2, 3)为参数的强凸函数, 即以下不等式成立:

    或等价地

    其中:ξi(xi)∈∂fi(xi), ξi(yi)∈∂fi(yi)(i=2, 3).

    为了分析方便, 将会频繁地用到如下不等式和等式:

    其中(10), (11)式中G$\mathbb{R} $n×n为半正定矩阵.

    为了书写简洁, 我们进一步定义

    记问题(3)的目标函数为f(u)=∑i=13fi(xi); 记λmax(B)为实对称矩阵B的最大特征值; 记‖x‖为x的欧氏范数.

    接下来, 我们注意到, F是一个具有反对称矩阵的仿射性质算子, 即具有以下性质:

2.   遍历情况下的APGM的收敛率
  • 引理1  假设$ \frac{1}{\mu } \le \min \left\{ {\frac{{{\eta _2}}}{{2{\lambda _{\max }}(\mathit{\boldsymbol{A}}_2^{\rm{T}}{\mathit{\boldsymbol{A}}_2})}}, \frac{{{\eta _3}}}{{2{\lambda _{\max }}(\mathit{\boldsymbol{A}}_3^{\rm{T}}{\mathit{\boldsymbol{A}}_3})}}} \right\}$, 其中η2η3的定义见假设1, 序列{ωk:=(x1k, x2k, x3k, λ)}由(6)式生成.则对∀ω*∈Ω*, 下面不等式成立

    其中: ${\mathit{\boldsymbol{G}}_i} = \frac{{{\mathit{\boldsymbol{I}}_{{n_i}}}}}{{\mu {\tau _i}}} - \frac{{\mathit{\boldsymbol{A}}_i^{\rm{T}}{\mathit{\boldsymbol{A}}_i}}}{\mu } > \mathit{\boldsymbol{0}}, {\tau _i}{\lambda _{\max }}(\mathit{\boldsymbol{A}}_i^{\rm{T}}{\mathit{\boldsymbol{A}}_i}) < 1, \;i = 1, 2, 3 $.

      由(6)式的一阶最优性条件, 对∀ xik+1Xi, ξi(xik+1)∈∂fi(xik+1), i=1, 2, 3有

    再由(6)式的最后一步, (14)式可以被重新表示为

    联立(15)式的i=1, 2, 3的情形便可得到以下不等式

    现在关键的一步是要证得(16)式前两项有界, 应用(10), (11)式, 我们可以得到

    联合(17)以及(6)式的最后一步可得, 对∀xik+1Xi, ξi(xik+1)∈∂fi(xik+1), i=1, 2, 3和∀λ$\mathbb{R} $l

    应用(10)式得到下面等式

    应用(8)式得到对i=2, 3有

    令(18)式u=u*

    综合(18)-(21)式得

    将(22)式结合$\frac{1}{\mu }{\lambda _{\max }}(\mathit{\boldsymbol{A}}_i^{\rm{T}}{\mathit{\boldsymbol{A}}_i}) - \frac{{{\eta _i}}}{2} \le 0\left( {i = 2, 3} \right) $, 得到(13)式成立.

    接下来将要证明遍历情况下(6)式的收敛率$ O\left( {\frac{1}{t}} \right)$.

    定理1  假设$ \frac{1}{\mu } \le \min \left\{ {\frac{{{\eta _2}}}{{2{\lambda _{\max }}(\mathit{\boldsymbol{A}}_2^{\rm{T}}{\mathit{\boldsymbol{A}}_2})}}, \frac{{{\eta _3}}}{{2{\lambda _{\max }}(\mathit{\boldsymbol{A}}_3^{\rm{T}}{\mathit{\boldsymbol{A}}_3})}}} \right\} $, 序列{ωk:=(x1k, x2k, x3k, λ)}由(6)式生成.对任意的整数t>0, 令

    则对任意的ω*Ω, 通过定义ρ:=max{dλ*‖+1, ‖λ*‖+1}, 得到

    即在遍历情况下, 目标函数和等式约束的残差都以$O\left( {\frac{1}{t}} \right) $的速率收敛到0,

      因为ωkΩ, 所以对任意的整数t>0有ωt=(ut, λt)∈Ω.由引理1和∑i=13Aixi*=b并结合(12)式和f(·)的凸性, 得到

    不等式(24)对所有的λ$\mathbb{R} $l都成立.由(3)式的鞍点定理得到

    又记A:=(A1, A2, A2), A$\mathbb{R} ^{l \times \sum {_{i = 1}^3} {n_i}}$; b:=λmax(A), 由不等式(25)与ρ=max{dλ*‖+1, ‖λ*‖+1}得到不等式

    在(24)式中, 令$ \mathit{\boldsymbol{\lambda }}: = - \frac{{\rho (\sum {_{i = 1}^3} {\mathit{\boldsymbol{A}}_i}\bar x_i^t - b)}}{{\left\| {\sum {_{i = 1}^3} {\mathit{\boldsymbol{A}}_i}\bar x_i^t - b} \right\|}}$, 并且利用∑i=13Aixi*=b即能得到

    我们定义函数υ(δ)=min{f(u)|$\sum {_{i = 1}^3} $Aixi-b=δ, xiXi}, 易证υ是凸的且BTλ*∈∂υ(0), 这表明

    δt=∑i=13Aixit-b, 定义$K: = \frac{1}{{2\mu }} $i=12‖∑j=i+13Aj(xi*-xi0)‖2+μλ02, 则

    ρ=max{dλ*‖+1, ‖λ*‖+1}带入(29)式

    联立(26), (27)和(30)式, 可以得到

    所以, 由(30)和(31)式立刻就能得到(23)式.

    至此, 在遍历情况下建立了3块(6)式的$ O\left( {\frac{1}{t}} \right)$收敛率.

3.   结论
  • 本文在遍历情况下分析了交替邻近梯度法(APGM)的次线性收敛率.这是第一个对多块APGM进行次线性收敛率的分析.

Reference (11)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return