-
开放科学(资源服务)标志码(OSID):
-
随着数据规模的爆炸式增长,集中式优化算法因受限于单机的计算瓶颈而难以求解大规模优化问题. 而多机协作的分布式机制可以大大降低单机的计算负担. 同时,在分布式网络中,节点之间通过相互协作,可以有效解决诸如智能电网、传感器网络等大规模问题,并能提高数据传递效率,增强网络鲁棒性[1]. 但在应用中,分布式网络通常是动态变化的,而在线学习具有实时更新模型的特性,能够根据数据的变化动态地调整模型[2],进而可高效地完成对大量实时数据的处理,已经在机器学习、在线推荐系统和资源分配等方面体现出了重要的应用价值.
分布式优化算法已成为有效求解大规模优化问题的热点算法之一,如分布式次梯度算法[3-4]、分布式对偶平均算法和分布式ADMM算法[1]等等,但这些算法是基于Euclidean距离设计的,仅能处理一些带有简单约束的优化问题. 文献[5]提出了一类镜面梯度下降算法,该算法是将传统的基于Euclidean距离的梯度投影算法推广到更一般的基于Bregman散度的一类投影算法. 针对约束的几何特性,通过适当选择Bregman散度,使得镜面梯度下降算法能有效地解决诸如带有单纯形约束的高维优化问题. 文献[6]研究表明,镜面梯度下降算法在大规模优化问题中极为有效. 文献[7]提出了一种分布式镜面随机梯度下降算法. 虽然该算法能够有效处理海量数据,但由于环境的不确定性,损失函数具有时变性和不确定性,导致分布式镜面随机梯度下降算法并不能对网络产生的大量分布式数据流进行实时处理,造成网络资源和时间的浪费. 针对损失函数是时变的情形,一种有效的处理方式是在线学习,因为在线学习不仅可以利用具有时变的损失函数来模型化多节点网络系统的不确定性,而且可以方便地对网络节点的动态数据流进行实时处理. 最近,文献[8]提出了一种在线分布式镜面梯度下降(ODMD)算法,并给出了Regret界的估计是
$O\left( {\sqrt T } \right)$ ,这里T是迭代次数.然而,上述大多数算法都需要计算梯度. 但在许多实际应用场景中,梯度信息往往难以获取. 因此,设计出一种免梯度计算的有效算法显得非常有意义. 受文献[9]的启发,本文提出了一种基于Bandit反馈的免梯度在线分布式镜面下降算法. 不同于ODMD算法,我们提出的算法只需要简单计算函数值,主要是利用损失函数在一些随机点的函数值信息去逼近损失函数的梯度,从而避免了直接计算损失函数的梯度. 我们设计的算法主要有两个优点:①能有效解决梯度信息难以获取的困难; ②能有效处理约束集较复杂(如单纯形约束集)的优化问题.
Online Distributed Mirror Descent Algorithm Based on Bandit Feedback
-
摘要: 针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法. 首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难. 然后,给出算法的收敛性分析. 结果表明算法的收敛速度为$O\left( {\sqrt T } \right)$,其中T是迭代次数. 最后,使用投资组合选择模型进行了数值仿真实验. 实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近. 对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题.Abstract: To address the difficulty of obtaining gradient information of a class of loss function in online distributed optimization, an online distributed mirror descent (ODMD-B) algorithm based on bandit feedback was proposed. Firstly, we extend the ODMD algorithm to the gradient-free setup where the gradient of objective functions cannot be directly obtained, and propose the ODMD-B algorithm by using the value of objective function to estimate its gradient. Thus, it overcomes the difficulty in obtaining gradient information involving complicated or expensive computation. Then, the convergence analysis of the algorithm is given. The results show that the convergence rate of the algorithm isorder of, where is the total number of iterations. Finally, numerical simulations on the portfolio selection model are used to show the effectiveness of the proposed algorithm. Results of experiment showed that the performance of the ODMD-B algorithm is very close to that of the existing ODMD algorithm. When compared with the ODMD algorithm, the advantage of our ODMD-B algorithm is that it only uses the function value information with inexpensive computational cost, making it more suitable for more general problems where gradient information is difficult to obtain.
-
Key words:
- online learning /
- distributed optimization /
- mirror descent algorithm /
- bandit feedback /
- regret estimate .
-
[1] 谢佩, 游科友, 洪奕光, 等. 网络化分布式凸优化算法研究进展[J]. 控制理论与应用, 2018, 35(7): 918-927. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-KZLY201807003.htm [2] 张文鹏. 免投影在线学习[D]. 北京: 清华大学, 2017. [3] NEDIC A, OZDAGLAR A. Distributed Subgradient Methods for Multi-Agent Optimization[J]. IEEE Transactions on Automatic Control, 2009, 54(1): 48-61. doi: 10.1109/TAC.2008.2009515 [4] SUNDHAR RAM S, NEDIĆ A, VEERAVALLI V V. Distributed Stochastic Subgradient Projection Algorithms for Convex Optimization[J]. Journal of Optimization Theory and Applications, 2010, 147(3): 516-545. doi: 10.1007/s10957-010-9737-7 [5] BECK A, TEBOULLE M. Mirror Descent and Nonlinear Projected Subgradient Methods for Convex Optimization[J]. Operations Research Letters, 2003, 31(3): 167-175. doi: 10.1016/S0167-6377(02)00231-6 [6] BEN-TAL A, MARGALIT T, NEMIROVSKI A. The Ordered Subsets Mirror Descent Optimization Method with Applications to Tomography[J]. SIAM Journal on Optimization, 2001, 12(1): 79-108. doi: 10.1137/S1052623499354564 [7] LI J Y, LI G Q, WU Z Y, et al. Stochastic Mirror Descent Method for Distributed Multi-Agent Optimization[J]. Optimization Letters, 2018, 12(6): 1179-1197. doi: 10.1007/s11590-016-1071-z [8] SHAHRAMPOUR S, JADBABAIE A. Distributed Online Optimization in Dynamic Environments Using Mirror Descent[J]. IEEE Transactions on Automatic Control, 2018, 63(3): 714-725. doi: 10.1109/TAC.2017.2743462 [9] CAO X, LIU K J R. Online Convex Optimization with Time-Varying Constraints and Bandit Feedback[J]. IEEE Transactions on Automatic Control, 2019, 64(7): 2665-2680. doi: 10.1109/TAC.2018.2884653 [10] HAZAN E. Introduction to Online Convex Optimization[J]. Foundations and Trends © in Optimization, 2016, 2(3-4): 157-325. doi: 10.1561/2400000013 [11] 肖丽, 包骏杰, 石熙, 周琳琳. 非平衡有向网络上求解分布式经济分配问题的原始-对偶算法[J]. 西南大学学报(自然科学版), 2018, 40(11): 48-54. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xdzk.2018.11.008 [12] 周小清, 李觉友. 一类时变有向图中的PUSH-SUM分布式对偶平均优化算法[J]. 西南师范大学学报(自然科学版), 2019, 44(11): 11-17. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XNZK201911003.htm