留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

改进共轭梯度法的收敛性

上一篇

下一篇

林穗华. 改进共轭梯度法的收敛性[J]. 西南大学学报(自然科学版), 2021, 43(7): 81-88. doi: 10.13718/j.cnki.xdzk.2021.07.011
引用本文: 林穗华. 改进共轭梯度法的收敛性[J]. 西南大学学报(自然科学版), 2021, 43(7): 81-88. doi: 10.13718/j.cnki.xdzk.2021.07.011
LIN Sui-hua. Global Convergence of Some Improved Conjugate Gradient Methods[J]. Journal of Southwest University Natural Science Edition, 2021, 43(7): 81-88. doi: 10.13718/j.cnki.xdzk.2021.07.011
Citation: LIN Sui-hua. Global Convergence of Some Improved Conjugate Gradient Methods[J]. Journal of Southwest University Natural Science Edition, 2021, 43(7): 81-88. doi: 10.13718/j.cnki.xdzk.2021.07.011

改进共轭梯度法的收敛性

  • 基金项目: 国家自然科学基金项目(11261006); 广西高校科研项目(ZD2014143); 广西重点培育学科(应用数学)建设项目(桂教科研[2013]16)
详细信息
    作者简介:

    林穗华,教授,主要从事最优化理论与方法研究 .

  • 中图分类号: O221.2

Global Convergence of Some Improved Conjugate Gradient Methods

  • 摘要: 提出一类PRP,HS,LS共轭梯度法的修正参数公式,改进方法的搜索方向自动充分下降. 在标准WWP线搜索和新型MWWP线搜索下,证明了算法的全局收敛性. 数值实验表明算法结果是有效的.
  • 加载中
  • 图 1  算法迭代次数效能图

    图 2  算法CPU时间效能图

    表 1  数值结果

    问题 维数 PRP V1 V2 V3
    N t/s N t/s N t/s N t/s
    Extended Trigonometric Function 1 000 147 0.094 138 0.078 138 0.109 128 0.078
    5 000 178 2.438 187 2.438 185 2.531 189 2.406
    10 000 178 4.922 154 4.578 168 4.188 156 4.234
    Raydan 2 Function 1 000 NaN NaN 37 0 37 0.016 37 0.016
    5000 NaN NaN 33 0.125 33 0.125 33 0.172
    10 000 NaN NaN NaN NaN NaN NaN NaN NaN
    Diagonal 5 Function (MatrixRom) 1 000 5 0 5 0 5 0 5 0
    5 000 5 0.031 8 0.094 8 0.141 8 0.031
    10 000 4 0.078 9 0.172 9 0.172 9 0.188
    Extended Himmelblau Function 1 000 61 0 23 0.016 23 0.016 23 0
    5 000 65 0.172 38 0.109 38 0.109 38 0.109
    10 000 66 0.344 25 0.188 24 0.125 25 0.063
    Extended Block Diagonal BD1 Function 1 000 119 0.031 76 0.016 74 0.016 76 0.016
    5 000 148 0.828 100 0.516 99 0.609 100 0.641
    10 000 159 1.891 65 0.75 60 0.594 60 0.859
    Extended Quadratic Penalty QP1 Function 1 000 77 0.016 93 0.031 73 0.016 73 0.078
    5 000 90 0.406 78 0.516 78 0.344 78 0.375
    10 000 105 0.875 100 1.547 93 1.172 112 1.969
    A Quadratic Function QF2 1 000 35 0.016 25 0.016 25 0.016 25 0
    5 000 35 0.109 26 0.109 26 0.063 26 0.109
    10 000 35 0.172 25 0.109 25 0.109 25 0.109
    DQDRTIC (CUTE) 1 000 NaN NaN 59 0.016 NaN NaN 143 0.016
    5 000 NaN NaN 99 0.281 NaN NaN 91 0.281
    10 000 NaN NaN 542 3.266 141 0.984 87 0.609
    DIXMAANA (CUTE) 1 000 51 0.078 38 0.063 38 0.063 38 0.063
    5 000 54 1.641 35 1.031 35 1.172 35 1.313
    10 000 55 2.859 36 1.094 36 1.141 36 2.031
    DIXMAANC (CUTE) 1 000 137 0.219 122 0.188 122 0.188 122 0.172
    5 000 141 4.469 125 3.781 125 4.078 125 4.031
    10 000 141 7.547 127 5.641 127 5.375 127 6.578
    Broyden Tridiagonal 1 000 129 0.094 77 0.047 45 0.047 58 0.031
    5 000 144 1.938 108 1.469 99 1.313 122 1.75
    10 000 191 5.141 128 3.766 130 3.875 129 3.875
    DIXMAAND (CUTE) 1 000 43 0.078 33 0.047 33 0.063 33 0.047
    5 000 44 1.391 33 0.953 33 1.063 33 1.125
    10 000 45 2.5 34 1.313 34 1.625 34 1.5
    COSINE (CUTE) 1 000 NaN NaN 35 0.016 35 0.031 35 0.016
    5 000 NaN NaN 39 0.516 36 0.375 36 0.484
    10 000 NaN NaN NaN NaN NaN NaN NaN NaN
    Extended DENSCHNB (CUTE) 1 000 75 0.016 60 0.078 60 0 60 0
    5 000 80 0.172 64 0.219 64 0.172 64 0.219
    10 000 81 0.547 65 0.438 65 0.438 65 0.297
    Extended DENSCHNF (CUTE) 1 000 135 0.016 34 0 34 0 34 0.016
    5 000 76 0.5 45 0.234 58 0.359 33 0.125
    10 000 80 0.844 43 0.344 38 0.391 52 0.563
    下载: 导出CSV
  • [1] HESTENES M R, STIEFEL E. Methods of Conjugate Gradients for Solving Linear Systems[J]. Journal of Research of the National Bureau of Standards, 1952, 49(6): 409. doi: 10.6028/jres.049.044
    [2] 戴彧虹. 非线性共轭梯度法[M]. 上海: 上海科学技术出版社, 2000.
    [3] doi: http://www.ams.org/mathscinet-getitem?mr=2548208 HAGER W W W W, ZHANG H C. A Survey of Nonlinear Conjugate Gradient Methods[J]. Pacific Journal of Optimization, 2006, 2(1): 35-58.
    [4] HAGER W W, ZHANG H C. A New Conjugate Gradient Method with Guaranteed Descent and an Efficient Line Search[J]. SIAM Journal on Optimization, 2005, 16(1): 170-192. doi: 10.1137/030601880
    [5] POWELL M J D. Convergence Properties of Algorithms for Nonlinear Optimization[J]. SIAM Review, 1986, 28(4): 487-500. doi: 10.1137/1028154
    [6] GILBERT J C, NOCEDAL J. Global Convergence Properties of Conjugate Gradient Methods for Optimization[J]. SIAM Journal on Optimization, 1992, 2(1): 21-42. doi: 10.1137/0802003
    [7] WEI Z X, YAO S W, LIU L Y. The Convergence Properties of Some New Conjugate Gradient Methods[J]. Applied Mathematics and Computation, 2006, 183(2): 1341-1350. doi: 10.1016/j.amc.2006.05.150
    [8] SHENGWEI Y, WEI Z X, HUANG H. A Note about WYL's Conjugate Gradient Method and Its Applications[J]. Applied Mathematics and Computation, 2007, 191(2): 381-388. doi: 10.1016/j.amc.2007.02.094
    [9] HUANG H, LIN S H. A Modified Wei-Yao-Liu Conjugate Gradient Method for Unconstrained Optimization[J]. Applied Mathematics and Computation, 2014, 231: 179-186. doi: 10.1016/j.amc.2014.01.012
    [10] 黎勇, 韦增欣. 一种自动充分下降的共轭梯度法[J]. 西南师范大学学报(自然科学版), 2016, 41(5): 36-40. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XNZK201605007.htm
    [11] 黎勇. 一类修正PRP共轭梯度法的全局收敛性及其数值试验结果[J]. 西南大学学报(自然科学版), 2011, 33(11): 23-28. doi: http://xbgjxt.swu.edu.cn/article/id/jsunsxnnydxxb201111005
    [12] 林穗华. 一类充分下降共轭梯度法的全局收敛性[J]. 吉林大学学报(理学版), 2017, 55(4): 874-880. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JLDX201704018.htm
    [13] 林穗华. 基于Wolfe线搜索的修正共轭梯度算法[J]. 安徽大学学报(自然科学版), 2018, 42(2): 47-53. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-AHDX201802007.htm
    [14] 关哲, 于宪伟. 标准Wolfe线搜索下修正的DY共轭梯度法[J]. 西南师范大学学报(自然科学版), 2016, 41(1): 31-34. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XNZK201601005.htm
    [15] 赛·闹尔再, 张慧玲. 修正LS共轭梯度方法及其收敛性[J]. 西南师范大学学报(自然科学版), 2016, 41(7): 20-26. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XNZK201607004.htm
    [16] 李春念, 袁功林. 求解无约束问题的修正PRP共轭梯度算法[J]. 西南大学学报(自然科学版), 2018, 40(9): 67-75. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xdzk.2018.09.011
    [17] doi: http://www.tandfonline.com/doi/full/10.1080/0740817X.2012.726757 YUAN G L, WEI Z X, LI G Y. A Modified Polak-Ribière-Polyak Conjugate Gradient Algorithm for Nonsmooth Convex Programs[J]. Journal of Computational and Applied Mathematics, 2014, 255: 86-96.
    [18] doi: http://www.sciencedirect.com/science/article/pii/S0307904X1730104X YUAN G L, WEI Z X, LU X W. Global Convergence of BFGS and PRP Methodsunder a Modified Weak Wolfe-Powell Line Search[J]. Applied Mathematical Modelling, 2017, 47: 811-825.
    [19] doi: http://dx.doi.org/10.1007/s10957-008-9505-0 ANDREI N. An Unconstrained Optimization Test Functions Collection[J]. Advanced Modeling and Optimization, 2008, 10(1): 147-161.
    [20] DOLAN E D, MORÉ J J. Benchmarking Optimization Software with Performance Profiles[J]. Mathematical Programming, 2002, 91(2): 201-213. doi: 10.1007%2Fs101070100263
  • 加载中
图( 2) 表( 1)
计量
  • 文章访问数:  2271
  • HTML全文浏览数:  2271
  • PDF下载数:  286
  • 施引文献:  0
出版历程
  • 收稿日期:  2019-05-15
  • 刊出日期:  2021-07-20

改进共轭梯度法的收敛性

    作者简介: 林穗华,教授,主要从事最优化理论与方法研究
  • 广西民族师范学院 教育科学学院,广西 崇左 532200
基金项目:  国家自然科学基金项目(11261006); 广西高校科研项目(ZD2014143); 广西重点培育学科(应用数学)建设项目(桂教科研[2013]16)

摘要: 提出一类PRP,HS,LS共轭梯度法的修正参数公式,改进方法的搜索方向自动充分下降. 在标准WWP线搜索和新型MWWP线搜索下,证明了算法的全局收敛性. 数值实验表明算法结果是有效的.

English Abstract

  • 解极小化问题min{f(x)| x$\mathbb{R} $n}的迭代法有多种,其中共轭梯度法由于无须用到▽2f(x)等n阶矩阵数据,存储需求少而特别适合大规模优化问题[1-18]. 传统共轭梯度法的迭代格式为:

    其中:dk为搜索方向,αk为步长因子,βk为参数,gk=▽f(xk),sk= xk+1- xk. 不同的βk参数公式对应不同的共轭梯度法. 著名的PRP,HS,LS,FR,DY,CD方法的参数公式如下:

    其中:yk-1= gk- gk-1,‖·‖为欧氏范数. 基于βk≥0在某些类型共轭梯度法收敛性分析中的重要性,文献[5-14]均对βk采取相应的非负修正策略,如文献[5]对βkPRP截值得到βkPRP+=max{βkPRP,0}≥0;文献[7-8]则从βkPRPβkFRβkHSβkDYβkLSβkCD凸组合的方式,得到βkPRPβkHSβkLS的非负修正公式如下:

    其中

    相应的WYL,MHS,MLS方法都具有较好的收敛性.

    类似地,βkPRPβkHSβkLS也可修正为:

    其中:

    这一修改方式能确保βk≥0,但却无法满足充分下降条件:∃c∈(0,1),使

    然而某些类型共轭梯度法的收敛性依赖于充分下降条件,因此文献[11]定理1只得将“满足充分下降条件”作为预设前提. 事实上VPRP,VHS,VLS方法不满足充分下降性,其全局收敛性仍无法保证.

    受文献[9-10, 16-17]充分下降性策略的启发,我们修改(3)式的分母,得到

    其中常数μ>2. 我们将讨论(1),(2)式迭代法的收敛性,其中参数βk取自(5),(6)或(7)式,步长因子αk考虑采用经典的weak Wolfe-Powell(WWP)线搜索[2]及文献[18]针对BFGS和PRP方法设计的modified weak Wolfe-Powell(MWWP)线搜索.

    记参数为δσ的WWP线搜索条件为WWP(δσ)条件:

    其中:δ∈(0,$\frac{1}{2}$),σ∈(δ,1).

    记参数为δ1δσ的MWWP线搜索条件为MWWP(δ1δσ)条件:

    其中:δ∈(0,$\frac{1}{2}$),δ1∈(0,δ),σ∈(δ,1).

    βkV1βkV2βkV3统称为βkV,对应的算法V1V2V3也统称为算法V.

  • 算法 V-WWP

    步骤 1  设定初值x1$\mathbb{R} $nμ>2,0<δ1δσ<1,ε>0,d1=- g1k=1. 若‖ gk‖≤ε,则停止.

    步骤 2  计算αk满足WWP(δσ)条件(8)和(9)式.

    步骤 3  由(1)式计算xk+1. 若‖ gk+1‖≤ε,则停止.

    步骤 4  由(5),(6)或(7)式计算βk+1,由(2)式计算dk+1.

    步骤 5  置k=k+1,转步骤2.

    在算法V-WWP框架中,将步骤2改为计算αk满足MWWP(δ1δσ)条件(10)和(11)式,则得到V-MWWP算法.

    定理 1  算法V-WWP生成的序列βkgkdk满足0≤βk和充分下降条件(4).

      ∀k≥2,由-‖ gk‖‖ gk-1‖≤ gkT gk-1≤‖ gk‖‖ gk-1‖,可得

    又有

    从而,可得0≤βkV1,0≤βkV2,0≤βkV3. 根据算法V-WWP步骤(4)βk的取法,可得0≤βk.

    c=1- $\frac{2}{\mu }$,则c∈(0,1). 当k=1时,显然

    k≥2情形,若gkT dk-1=0,将gkT与(2)式两端作内积,可得

    gkTdk-1≠0,则由(12)-(15)式,可得

    从而可得

    进一步可得

    定理1得证.

  • 证明算法的收敛性需要用到以下假设和引理.

    假设:

    (i) f(x)在水平集Ω={ x$\mathbb{R}$n|f(x)≤f(x1)}下方有界,Ω有界.

    (ii) ▽f(x)在Ω的某邻域N上Lipschitz连续,即存在常数L>0,使得

    引理 1[3, 6]  考虑满足如下条件的任一共轭梯度法(1)-(2):

    (a) βk≥0.

    (b) 搜索方向满足充分下降条件(4).

    (c) 以下Zoutendijk条件成立:

    (d) βk满足性质(*):设0<r≤‖ gk‖≤ r,存在常数b>1和λ>0,对∀k≥2有

    若假设(i)和(ii)成立,则该迭代全局收敛.

    以下算法收敛性分析中均假设‖ gk‖≠0,否则算法已得到f(x)的稳定点而终止.

  • 定理 2  若假设(i)和(ii)成立,则算法V-WWP生成的序列gkdk满足Zoutendijk条件(17).

      由(8)式和定理1,知fk+1fk+δαkgkTdkfk,递推可得fk+1fk<…<f1. 再由假设(i)可知,序列{fk}单调有界从而收敛,即$\mathop {\lim }\limits_{k \to \infty } {f_{k + 1}}$为常数.

    由(9)式和假设(ii),可得

    从而可得

    由(8),(18)式可得

    (19) 式两端对k=1,2,…求和,可得

    从而可知(17)式成立,定理2得证.

    定理 3  若假设(i)和(ii)成立,βkgkdk为算法V-WWP生成的序列,则βk满足性质(*).

      由(9)式和定理1,可得

    从而可得

    根据算法V-WWP步骤(4)βk的取法,可知

    假设∀k≥1,0<r≤‖ gk‖≤ r,其中rr为常数. 取

    则由σ∈(0,1),c=1-$\frac{2}{\mu }$∈(0,1),知b>1,λ>0.

    由(12)和(20)式,可得

    设‖ sk-1‖≤λ,则由(16),(20)式及

    可得

    定理3得证.

    由定理1-3以及引理1,可得如下定理4.

    定理 4  若假设(i)和(ii)成立,gk为算法V-WWP生成的序列,则$\mathop {\lim \;\inf }\limits_{k \to \infty } \left\| {{\mathit{\boldsymbol{g}}_k}} \right\| = 0$.

    定理 5  若αk满足MWWP(δ1δσ)条件,则αk也满足WWP(δ-δ1σ)条件.

      设αk由MWWP(δ1δσ)线搜索产生,其中δ∈(0,$\frac{1}{2}$),δ1∈(0,δ),σ∈(δ,1),则由(10)和(11)式,可得

    显然δ-δ1∈ (0,$\frac{1}{2}$),由(21)和(22)式,可知αk也满足参数为δ-δ1σ的WWP线搜索条件. 定理5得证.

    由定理5,类似定理4的证明过程,可得算法V-MWWP全局收敛,即如下定理6成立.

    定理 6  若假设(i)和(ii)成立,gk为算法V-MWWP生成的序列,则$\mathop {\lim \;\inf }\limits_{k \to \infty } \left\| {{\mathit{\boldsymbol{g}}_k}} \right\| = 0$.

  • 利用文献[19]的部分测试问题,维数分别取1 000,5 000,10 000,对算法PRP(采用MWWP搜索)和算法V-MWWP进行数值试验. 试验环境为:ThinkPad E580,Intel(R) Core(TM) i5-8250U CPU@1.60GHz,RAM 8.00GB,Windows 10,Matlab R2016a. 算法参数δ1=0.05,δ=0.1,σ=0.9,μ=5.1,ε=10-6. 终止条件为‖ gk‖≤10-6或迭代次数N ≥1 000. 计算结果见表 1,其中t表示算法所耗CPU时间,NaN表示算法终止时未满足‖ gk‖≤ε.

    应用文献[20]的技术得到算法PRP与算法V关于迭代次数和CPU时间比较的效能图(图 1图 2). 可见算法V对这些测试问题的数值表现比算法PRP更好些.

参考文献 (20)

目录

/

返回文章
返回