基于BB步长的一类原始-对偶算法

郑代秀

doi:10.13718/j.cnki.xsxb.2023.01.006

摘要: 增广拉格朗日乘子法(ALM)是求解带等式约束的二次凸优化问题的常用方法，但罚参数选取不当时，收敛速度比较慢. 提出ALM-BB算法，利用Barzilai-Borwein(BB)算法的步长去改进原始的ALM，证明ALM-BB算法的收敛性. 最后将这类方法运用于求解范数最优控制问题. 数值算例表明改进的算法收敛速度更快.

Abstract: A class of numerical computational methods for quadratic convex optimization problems with equational constraints is studied. The Augmented Lagrange Multiplier Method (ALM) is a common method for solving such problems, but the convergence speed is slow due to the improper selection of penalty parameters. We propose to improve the original ALM algorithm by using the step size of Barzilai-Borwein (BB) algorithm to prove the convergence of ALM-BB algorithm. Finally, this method is applied to solve the parametric optimal control problem. Numerical examples show that the improved algorithm converges faster.

Key words:

quadratic convex programming problem /
generalized Lagrange multiplier method /
BB step size /
parametric optimal control problem .

全文HTML

对于带线性等式约束的凸优化问题

其中$f: \mathbb { R }^n \longrightarrow \mathbb { R }$为强凸二次函数，$\boldsymbol{c} \in \mathbb{R}^m, \boldsymbol{A} \in \mathbb{R}^{m \times n} \text { 且 } \operatorname{rank}(\boldsymbol{A})=m(n, m \in \mathbb{N}, m <n) $，其中rank(A)表示矩阵A的秩. 求解带等式约束的优化问题的一个经典方法是外罚函数法：通过增加惩罚项将约束问题转为带罚参数的无约束优化问题，并通过求解无约束优化问题得到原约束优化问题的近似解. 外罚函数法最早是由文献[1]提出. 在外罚函数法中，罚参数选取过小时，罚函数可能无界，此时迭代发散^[2]；而当罚参数趋于无穷时，增广目标函数将呈现病态性质^[3]. 为此，文献[4]和文献[5]于1969年各自独立地提出在罚函数中引入Lagrange乘子项来改进算法，该算法被称为增广Lagrange乘子法(ALM). 解实际问题时，与外罚函数法相比，ALM中罚因子ρ是可以固定的，而不需要让其趋于无穷^[6]. 但罚参数仍需适当选取，若罚参数ρ选取过大，增广Lagrange函数关于x的海瑟矩阵的条件数会病态，从而使得求解难度提高. 在文献[2]中，提到对罚参数ρ的一个经验选取是ρ∈^{[2, 10]}. 文献[7]建议，用一个单调递增的序列{ρ_k}代替固定的ρ，但也没有从根本上解决罚参数选取难的问题.

ALM算法本质上是一类原始-对偶算法，更新乘子λ的过程本质上是用梯度法求解对偶问题，其中参数ρ是梯度算法的下降步长. 而在优化问题的梯度类算法中，Barzilai-Borwein算法(以下简记为BB算法^[8])的表现比较好(具有拟牛顿性质). 所以可以考虑用BB算法的步长去替代ALM中固定步长ρ，得到一个新的凸优化问题的原始-对偶算法，我们将其简记为ALM-BB算法. 该思想首先由文献[9]在研究大数值优化问题的乘子交替方向法^[10-11]的改进型算法时提出，但没给出算法的收敛性证明. 本文在目标函数f为强凸二次函数，约束函数中矩阵A行满秩的条件下证明了ALM-BB算法收敛性.

范数最优控制问题本质上是无穷维的二次凸优化问题，通过适当的离散格式可以获得其有限维框架的近似问题，且其近似问题为一类二次凸优化问题. 由此可以利用本文的算法进行数值求解. 通过求解范数最优控制问题的数值算例发现，ALM-BB算法收敛速度更快.

本文的结构如下：在第1节中给出一些记号和预备知识；在第2节中介绍ALM-BB算法并证明其收敛性；在第3节中给出范数最优控制的离散格式，并利用实际算例说明ALM-BB算法的有效性；在第4节中作总结.

1. 预备知识

考虑如下二次凸优化问题：

其中$\boldsymbol{S} \in \mathbb{R}^{n \times n}, \boldsymbol{b} \in \mathbb{R}^n, \boldsymbol{c} \in \mathbb{R}^m, \boldsymbol{A} \in \mathbb{R}^{m \times n}$. 在本文中，我们作出如下假设：

(A1) $ \boldsymbol{S} \in \mathbb{R}^{n \times n}$为对称正定矩阵；

(A2) rank(A)=m.

问题(P)的Lagrange函数$\mathscr{L}: \mathbb{R}^n \times \mathbb{ R }^m \longrightarrow \mathbb{ R } $定义为

向量λ称为对偶变量或者原问题(P)的Lagrange乘子向量.

Lagrange对偶函数定义为

问题(P)的对偶问题定义为

引理1^[2] 对于凸优化问题(P)，若条件(A1)-(A2)成立，那么x^*，λ^*分别是原、对偶问题的全局最优解当且仅当

称满足(2)式的(x^*，λ^*)为KKT对. 由引理1知求解凸优化问题(P)的KKT对等价于求解原问题与对偶问题的最优解.

优化问题(P)的增广Lagrange函数为：

其中ρ>0是罚参数. 同样，可利用其增广Lagrange函数定义对偶函数：

引理2^[12] 若x^*，λ^*分别为增广Lagrange函数$\mathscr{L}_p(\boldsymbol{x}, \boldsymbol{\lambda}) $对应的原始、对偶问题的解，则(x^*，λ^*)为Lagrange函数$\mathscr{L}_p(\boldsymbol{x}, \boldsymbol{\lambda}) $的KKT对.

下面我们回顾经典的增广Lagrange乘子算法. 求解问题(P)的增广Lagrange乘子法(ALM)的迭代格式如下：

算法1：ALM

1. 给定初始点x₀与λ₀，ρ>0，终止误差ε，令k=0；
2. 计算$ \boldsymbol{x}_{k+1}=\underset{\boldsymbol{x} \in \mathbb{R} n}{\arg \min } \mathscr{L}_\rho\left(\boldsymbol{x}, \boldsymbol{\lambda}_k\right)$；
3. 若$ \left\|\boldsymbol{A} \boldsymbol{x}_{k+1}-\boldsymbol{c}\right\|<\varepsilon$，停止；否则转第4步；
4. 计算$\boldsymbol{\lambda}_{k+1}=\boldsymbol{\lambda}_k-\rho\left(\boldsymbol{A} \boldsymbol{x}_{k+1}-\boldsymbol{c}\right) $；
5. 令k=k+1，转第2步.

该算法中的步长ρ是固定的，而罚参数若选取不当，会显著增加求解时间. 为改进算法，考虑用BB算法的步长α_BB去替代固定的步长ρ. 给定$ \boldsymbol{x}_k, \boldsymbol{x}_{k-1}, \boldsymbol{\lambda}_k, \boldsymbol{\lambda}_{k-1}$，定义

其中$\boldsymbol{s}_{k-1}=\boldsymbol{\lambda}_k-\boldsymbol{\lambda}_{k-1}, \boldsymbol{y}_{k-1}=\boldsymbol{A} \boldsymbol{x}_k-\boldsymbol{A} \boldsymbol{x}_{k-1} $. 利用α_BB^k的定义方式，我们得到如下ALM-BB算法.

算法2：ALM-BB

1. 给定初始点x₀与λ₀，ρ>0，终止误差ε，令k=0；
2. 计算$\boldsymbol{x}_{k+1}=\underset{\boldsymbol{x} \in \mathbb{R} n}{\arg \min } \mathscr{L}_\rho\left(\boldsymbol{x}, \boldsymbol{\lambda}_k\right) $；
3. 若$ \left\|\boldsymbol{A x}_{k+1}-\boldsymbol{c}\right\|<\varepsilon$，停止；否则转第4步；
4. 若k=0，计算$ \boldsymbol{\lambda}_1=\boldsymbol{\lambda}_0-\rho\left(\boldsymbol{A} \boldsymbol{x}_1-\boldsymbol{c}\right)$；
否则计算$ \boldsymbol{\lambda}_{k+1}=\boldsymbol{\lambda}_k-\alpha_{\mathrm{BB}}^k\left(\boldsymbol{A} \boldsymbol{x}_{k+1}-\boldsymbol{c}\right)$；
5. 令k=k+1，转第2步.

2. ALM-BB算法的收敛性

在本节，我们证明算法2的收敛性. 首先，我们证明算法2中更新Lagrange乘子的过程等价于求增广Lagrange函数对应的对偶问题的BB算法.

定理1  若条件(A1)-(A2)成立，则算法2中更新Lagrange乘子的过程等价于求增广Lagrange函数对应的对偶问题的BB算法.

证   由条件(A1)，对任意给定的$\boldsymbol{\lambda} \in \mathbb{R}^m $，存在唯一的$ \boldsymbol{x} \in \mathbb{R}^n$使得

由于$ \boldsymbol{x} \longmapsto \mathscr{L}_p(\boldsymbol{x}, \boldsymbol{\lambda})$为可微凸函数，由一阶最优性条件可得：

由此可得x的显式表达式：

其中$ \boldsymbol{R}=\boldsymbol{S}+\rho \boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}, \boldsymbol{h}=\rho \boldsymbol{A}^{\mathrm{T}} \boldsymbol{c}+\boldsymbol{b}$. 因此对偶函数

其中C为与x，λ无关的常数项.

由(4)式，增广Lagrange函数对应的对偶问题可写为如下无约束凸二次优化问题(为简单起见，我们将常数项C省略，它对对偶问题最优解的求解不会产生影响)：

在假设条件(A1)-(A2)下，矩阵AR^-1A^T是对称正定矩阵，因此优化问题(5)的解存在唯一.

由文献[8]，求解无约束凸优化问题(5)的BB算法迭代格式为

这里$ \widetilde{\alpha}_{\mathrm{BB}}^k=\frac{\left\langle\boldsymbol{s}_{k-1}, \boldsymbol{s}_{k-1}\right\rangle}{\left\langle\boldsymbol{s}_{k-1}, \boldsymbol{y}_{\lambda_{k-1}}\right\rangle}, \boldsymbol{s}_{k-1}=\boldsymbol{\lambda}_k-\boldsymbol{\lambda}_{k-1}, \boldsymbol{y}_{\lambda_{k-1}}=\boldsymbol{g}\left(\boldsymbol{\lambda}_k\right)-\boldsymbol{g}\left(\boldsymbol{\lambda}_{k-1}\right), \boldsymbol{g}\left(\boldsymbol{\lambda}_k\right)=\nabla\left(-\tilde{d}_\rho\left(\boldsymbol{\lambda}_k\right)\right)=\boldsymbol{A} \boldsymbol{R}^{-1} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{\lambda}_k+\boldsymbol{A} \boldsymbol{R}^{-1} \boldsymbol{h}- \boldsymbol{c}$.

在ALM-BB算法第2步中，利用凸优化问题的一阶最优性条件可得x_k+1的精确解为

将(7)式代入ALM-BB算法第3步，则有

对比算法2与对偶问题的BB算法，我们只需证明

其中x_k+1为算法2中求得的子问题的最优解.

事实上，由凸优化问题的一阶最优性条件可知x_k+1应满足

利用之前的记号可得

故由(5)式中$ -\widetilde{d}_\rho(\boldsymbol{\lambda})$的定义，有

下面我们利用BB算法的收敛性结果证明算法2产生的迭代序列的收敛性.

定理2   设条件(A1)-(A2)成立，则由算法2得到的迭代序列{(x_k，λ_k)}收敛到原问题的KKT对(x^*，λ^*). 特别地，x^*为原问题的最优解.

证   由条件(A1)-(A2)知x^*为原问题的最优解等价于存在λ^*使得(x^*，λ^*)为KKT对，即(x^*，λ^*) 满足

根据BB算法的收敛性(见文献[13]定理2.5)及定理1，有$\boldsymbol{\lambda}_k \rightarrow \boldsymbol{\lambda}^*, k \rightarrow \infty $. 其中λ^*为对偶问题(5)的最优解. 因此，由一阶最优性条件，

另一方面，由x_k+1的精确表达式(8)及{λ_k}的收敛性知$\boldsymbol{x}_{k+1} \rightarrow \boldsymbol{x}^*, k \rightarrow \infty $，其中

结合(9)式和(10)式可得

即(x^*，λ^*)满足条件$\nabla_\lambda \mathscr{L}\left(\boldsymbol{x}^*, \boldsymbol{\lambda}^*\right)=\bf{0} $.

进一步，

由(10)式和(11)式可得

故(x^*，λ^*)为原问题的KKT对.

此外，利用BB算法的R-线性收敛率，知ALM-BB也具有R-线性收敛率.

4. 总结

本文通过改变ALM算法中更新乘子这一迭代步的步长来提高算法的收敛速度. 范数最优控制问题本质上是无穷维的二次凸优化问题，通过适当的离散格式可以将其转为有限维的二次凸优化问题. 通过求解范数最优控制问题的数值算例发现，ALM-BB算法较ALM计算效率更高. 从数值实验看出ALM-BB算法的数值表现仍依赖于参数的选取. 此外，本文的收敛性证明依赖于凸二次规划问题的具体结构以及子问题可精确求解，对于更一般的非精确的ALM-BB算法的收敛性有待进一步研究.

参考文献 (15)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

N	ρ	ALM-BB		ALM
N	ρ	时间/s	迭代次数/次	时间/s	迭代次数/次
100	100	0.444	4	0.957	41
100	500	0.262	3	1.076	41
100	5 000	0.619	3	0.712	41
100	10 000	0.588	3	0.937	41
200	100	0.271	3	1.019	41
200	500	0.355	3	1.028	41
200	5 000	0.623	3	0.665	41
200	10 000	0.627	3	0.940	41

[1]	COURANT R. Variational Methods for the Solution of Problems of Equilibrium and Vibrations [J]. Bulletin of the American Mathematical Society, 1943, 49(1): 1-23. doi: 10.1090/S0002-9904-1943-07818-4
[2]	刘浩洋, 户将, 李勇锋. 最优化: 建模、算法与理论[M]. 北京: 高等教育出版社, 2020.
[3]	宋菲, 吴泽忠. 外罚函数法与广义Lagrange乘子法的比较研究[J]. 成都信息工程大学学报, 2017, 32(6): 667-674. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-CDQX201706016.htm
[4]	HESTENES M R. Multiplier and Gradient Methods[J]. Journal of Optimization Theory and Application, 1969, 4(5): 303-320. doi: 10.1007/BF00927673
[5]	POWELL M J D. A Method for Nonlinear Constraints in Minimization Problems [M]. New York: Academic Press, 1969: 283-298.
[6]	NOCEDAL J, WRIGHT S J. Numerical Optimization [M]. New York: Springer-Verlag, 1999.
[7]	NAGURNEY A, RAMANUJAM P. Transportation Network Policy Modeling with Goal Targets and Generalized Penalty Functions [J]. Transportation Science, 1996, 30(1): 3-13. doi: 10.1287/trsc.30.1.3
[8]	BARZILAI J, BORWEIN J M. Two-Point Step Size Gradient Methods [J]. IMA Journal of Numerical Analysis, 1988, 8(1): 141-148. doi: 10.1093/imanum/8.1.141
[9]	ZAREPISHEH M, XING L, YE Y Y. A Computation Study on an Integrated Alternating Direction Method of Multipliers for Large Scale Optimization [J]. Optimization Letters, 2018, 12(1): 3-15. doi: 10.1007/s11590-017-1116-y
[10]	GABAY D. A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximation [J]. Computers & Mathematics with Applications, 1976, 2(1): 17-40.
[11]	GLOWINSKI R, MARROCO A. Sur L'approximation, Par Éléments Finis D'ordre Un, et La Résolution, Par Pénalisation-Dualité D'une Classe de Problèmes de Dirichlet Non Linéaires [J]. Revue Française d'Automatique, Informatique, Recherche Opérationnelle Analyse Numérique, 1975, 9(2): 41-76.
[12]	杜学武. 求解约束优化问题的增广拉格朗日函数法[D]. 上海: 上海大学, 2005.
[13]	DAI Y H, LIAO L Z. R-Linear Convergence of the Barzilai and Borwein Gradient Method [J]. IMA Journal of Numerical Analysis, 2002, 22(1): 1-10. doi: 10.1093/imanum/22.1.1
[14]	DONTCHEV A L. Error Estimates for a Discrete Approximation to Constrained Control Problems [J]. SIAM Journal on Numerical Analysis, 1981, 18(3): 500-514. doi: 10.1137/0718032
[15]	雍炯敏, 楼红卫. 最优控制理论简明教程[M]. 北京: 高等教育出版社, 2006.

留言板