-
交替方向乘子法(ADMM)[1-2]是求解可分离凸优化问题的一种经典方法, 适用于求解大规模分布式问题. ADMM在机器学习、图像处理、统计学习和相关领域有广泛的应用. ADMM最早用于求解目标函数为两个凸函数的和并具有线形约束的如下凸优化问题:
其中:其中Ai∈
$\mathbb{R} $ l×ni(i=1, 2)为给定矩阵, b∈$\mathbb{R} $ l是给定向量, Xi∈$\mathbb{R} $ ni(i=1, 2)为闭凸集并且fi:$\mathbb{R} $ ni→$\mathbb{R} $ (i=1, 2)为凸函数.解决(1)式的经典的ADMM迭代程序如下其中: λk∈
$\mathbb{R} $ l为拉格朗日乘子, μ>0为惩罚参数.本文考虑求解以下具有线性约束且目标函数为3个凸函数的和的可分离凸规划问题:
其中: Ai∈
$\mathbb{R} $ l×ni(i=1, 2, 3)为给定矩阵, b∈$\mathbb{R} $ l是给定向量, Xi∈$\mathbb{R} $ ni(i=1, 2, 3)为闭凸集并且fi:$\mathbb{R} $ ni→$\mathbb{R} $ (i=1, 2, 3)为凸函数.我们的讨论是在fi(i=1, 2, 3)的邻近映射容易获得的假设下进行的.本文假设(3)式的解集非空.在没有任何假设的情况下, 文献[3]构造了一个例子说明了如下3块的ADMM不收敛:
文献[4]各自在Ai(i=1, 2, 3)为单射, f2, f3强凸, 并且
$ \frac{1}{\mu }$ 小于某个确定区域的条件下证明了(4)式全局收敛; 文献[5]在f1凸(不必强凸), f2, f3强凸且惩罚参数在一个确定区域的条件下证明了(4)式的次线性收敛率; 文献[6]在f1, f2凸, f3强凸以及其他各种附加条件下证明了(4)式的收敛性.为了利用fi(i=1, 2)的邻近映射的简单性, 一个比较受欢迎的技术[7-8]是线性化(2)式中xi-子问题的二次项.解决(1)式的交替邻近梯度法(APGM)的迭代程序如下
其中τ1和τ2为邻近梯度步长.文献[9]将邻近步合并入ADMM.后来, 这个思想被文献[10]推广, 并且他们还允许罚参和邻近步长随着迭代而不同.显然, (5)式中的子问题只涉及fi(i=1, 2)的邻近映射的计算.文献[11]证明了(5)式的收敛性.
我们提出针对问题(3)的如下的APGM:
其中: μ>0, τi>0, i=1, 2, 3.
类似于文献[5]关于(4)式的次线性收敛率的分析, 本文研究在遍历意义下(6)式在f1凸(不必强凸), f2, f3强凸且罚参数在一个确定区域的条件下速率为
$ O\left( {\frac{1}{t}} \right)$ 的次线性收敛率.
全文HTML
-
为了后续讨论的方便和简洁, 在这一部分做一些符号说明和假设.
记Ω=X1×X2×X3×
$\mathbb{R} $ p, 且记最优解为Ω*.令ω=(x1, x2, x3, λ)T, ω*=(x1*, x2*, x3*, λ*)T, 根据(3)式的一阶最优性条件, 解(3)式等同于找到ω*∈Ω*使得其中ξi(xi*)∈∂fi(xi*), i=1, 2, 3.
进一步地, 下面这些假设将应用于本文后续分析.
假设1 函数fi(i=2, 3)分别是以ηi>0(i=2, 3)为参数的强凸函数, 即以下不等式成立:
或等价地
其中:ξi(xi)∈∂fi(xi), ξi(yi)∈∂fi(yi)(i=2, 3).
为了分析方便, 将会频繁地用到如下不等式和等式:
其中(10), (11)式中G∈
$\mathbb{R} $ n×n为半正定矩阵.为了书写简洁, 我们进一步定义
记问题(3)的目标函数为f(u)=∑i=13fi(xi); 记λmax(B)为实对称矩阵B的最大特征值; 记‖x‖为x的欧氏范数.
接下来, 我们注意到, F是一个具有反对称矩阵的仿射性质算子, 即具有以下性质:
-
引理1 假设
$ \frac{1}{\mu } \le \min \left\{ {\frac{{{\eta _2}}}{{2{\lambda _{\max }}(\mathit{\boldsymbol{A}}_2^{\rm{T}}{\mathit{\boldsymbol{A}}_2})}}, \frac{{{\eta _3}}}{{2{\lambda _{\max }}(\mathit{\boldsymbol{A}}_3^{\rm{T}}{\mathit{\boldsymbol{A}}_3})}}} \right\}$ , 其中η2和η3的定义见假设1, 序列{ωk:=(x1k, x2k, x3k, λ)}由(6)式生成.则对∀ω*∈Ω*, 下面不等式成立其中:
${\mathit{\boldsymbol{G}}_i} = \frac{{{\mathit{\boldsymbol{I}}_{{n_i}}}}}{{\mu {\tau _i}}} - \frac{{\mathit{\boldsymbol{A}}_i^{\rm{T}}{\mathit{\boldsymbol{A}}_i}}}{\mu } > \mathit{\boldsymbol{0}}, {\tau _i}{\lambda _{\max }}(\mathit{\boldsymbol{A}}_i^{\rm{T}}{\mathit{\boldsymbol{A}}_i}) < 1, \;i = 1, 2, 3 $ .证 由(6)式的一阶最优性条件, 对∀ xik+1∈Xi, ξi(xik+1)∈∂fi(xik+1), i=1, 2, 3有
再由(6)式的最后一步, (14)式可以被重新表示为
联立(15)式的i=1, 2, 3的情形便可得到以下不等式
现在关键的一步是要证得(16)式前两项有界, 应用(10), (11)式, 我们可以得到
联合(17)以及(6)式的最后一步可得, 对∀xik+1∈Xi, ξi(xik+1)∈∂fi(xik+1), i=1, 2, 3和∀λ∈
$\mathbb{R} $ l有应用(10)式得到下面等式
应用(8)式得到对i=2, 3有
令(18)式u=u*
综合(18)-(21)式得
将(22)式结合
$\frac{1}{\mu }{\lambda _{\max }}(\mathit{\boldsymbol{A}}_i^{\rm{T}}{\mathit{\boldsymbol{A}}_i}) - \frac{{{\eta _i}}}{2} \le 0\left( {i = 2, 3} \right) $ , 得到(13)式成立.接下来将要证明遍历情况下(6)式的收敛率
$ O\left( {\frac{1}{t}} \right)$ .定理1 假设
$ \frac{1}{\mu } \le \min \left\{ {\frac{{{\eta _2}}}{{2{\lambda _{\max }}(\mathit{\boldsymbol{A}}_2^{\rm{T}}{\mathit{\boldsymbol{A}}_2})}}, \frac{{{\eta _3}}}{{2{\lambda _{\max }}(\mathit{\boldsymbol{A}}_3^{\rm{T}}{\mathit{\boldsymbol{A}}_3})}}} \right\} $ , 序列{ωk:=(x1k, x2k, x3k, λ)}由(6)式生成.对任意的整数t>0, 令则对任意的ω*∈Ω, 通过定义ρ:=max{d‖λ*‖+1, ‖λ*‖+1}, 得到
即在遍历情况下, 目标函数和等式约束的残差都以
$O\left( {\frac{1}{t}} \right) $ 的速率收敛到0,证 因为ωk∈Ω, 所以对任意的整数t>0有ωt=(ut, λt)∈Ω.由引理1和∑i=13Aixi*=b并结合(12)式和f(·)的凸性, 得到
不等式(24)对所有的λ∈
$\mathbb{R} $ l都成立.由(3)式的鞍点定理得到又记A:=(A1, A2, A2), A∈
$\mathbb{R} ^{l \times \sum {_{i = 1}^3} {n_i}}$ ; b:=λmax(A), 由不等式(25)与ρ=max{d‖λ*‖+1, ‖λ*‖+1}得到不等式在(24)式中, 令
$ \mathit{\boldsymbol{\lambda }}: = - \frac{{\rho (\sum {_{i = 1}^3} {\mathit{\boldsymbol{A}}_i}\bar x_i^t - b)}}{{\left\| {\sum {_{i = 1}^3} {\mathit{\boldsymbol{A}}_i}\bar x_i^t - b} \right\|}}$ , 并且利用∑i=13Aixi*=b即能得到我们定义函数υ(δ)=min{f(u)|
$\sum {_{i = 1}^3} $ Aixi-b=δ, xi∈Xi}, 易证υ是凸的且BTλ*∈∂υ(0), 这表明令δt=∑i=13Aixit-b, 定义
$K: = \frac{1}{{2\mu }} $ ∑i=12‖∑j=i+13Aj(xi*-xi0)‖2+μ‖λ0‖2, 则将ρ=max{d‖λ*‖+1, ‖λ*‖+1}带入(29)式
联立(26), (27)和(30)式, 可以得到
所以, 由(30)和(31)式立刻就能得到(23)式.
至此, 在遍历情况下建立了3块(6)式的
$ O\left( {\frac{1}{t}} \right)$ 收敛率.
-
本文在遍历情况下分析了交替邻近梯度法(APGM)的次线性收敛率.这是第一个对多块APGM进行次线性收敛率的分析.