-
开放科学(资源服务)标识码(OSID):
-
根据美国国家公路交通安全管理局(The National Highway Traffic Safe Administration,NHTSA)统计,超过90%的安全事故都是由于驾驶员失误造成的[1]. 近年来,随着传感器的大范围普及和控制器算力的逐步提升,高级驾驶辅助系统(Advanced Driver Assistance System,ADAS)得到广泛应用. 其中,自动紧急制动系统能够有效降低驾驶员负荷,减少因驾驶员疏忽导致的交通事故. 以此功能为基础的车辆自主跟驰控制系统,也是车辆高度/完全自动驾驶系统的核心功能之一,对提高车辆安全性、舒适性、经济性有着重要的意义,近年来受到全球学者的关注和研究.
对于车辆跟驰控制,其主要基于自车和前方障碍的运动信息进行碰撞风险评估. 目前较为成熟的风险评估模型包括以MAZDA模型、Berkley模型、NHTSA模型为代表的安全距离模型[2-4]和以碰撞时间(Time to collision,TTC)为代表的车间时距模型[5-6]. 基于碰撞风险模型,Gerdes等[7]采用了一种基于多面滑模控制器对发动机输出扭矩和制动力矩进行控制,在跟车工况中,该方法能够精确地跟踪车辆期望速度并与前车保持合适的安全距离. Kim提出了一种新型的时变参数自适应速度控制器,其控制发动机和制动力矩跟踪车辆期望速度,该方法有着较高的跟踪精度并对于外界扰动有良好的鲁棒性[8]. 模型预测控制策略(MPC)由于能够系统地处理全局约束,在跟驰控制中有着较好的效果. Li通过建立自适应巡航优化模型,平衡了在跟驰过程中车辆跟踪性能、燃油经济性和驾驶员期望响应的矛盾[9]. 文献[10]采用高斯核函数描述了碰撞风险,并采用MPC控制器的优化目标,实现了车辆自适应巡航功能.
近年来随着人工智能和强化学习技术的快速发展,其越来越广泛地应用于决策和控制系统. 罗颖等[11]采用深度确定性策略梯度(DDPG)算法,结合屏障控制方法,实现了车辆低速跟驰控制. 朱冰等[12]考虑前车运动不确定性,采用基于PPO的深度强化学习方法,实现了车辆自主跟驰,并有效降低了在线计算量. 虽然目前大多数跟驰控制策略已经更有效地避免碰撞,实现安全驾驶,但现有大多数控制策略是基于固定控制器参数的. 而在实际驾驶中,由于不同驾驶员具有差异化的性格、驾驶技术、驾驶风格,而统一标定的控制策略无法满足不同驾驶员的驾驶习性,从而导致车辆自主跟驰功能的宜人性较差,乘员接受度低. 管欣等[13]引入驾驶人模型并提出了基于驾驶人最优预瞄加速度模型的自适应巡航系统,实现了不同风格的跟驰控制. Yi等[14]通过采集实际驾驶人数据,采用基于具有遗传因子的递归最小二乘算法实现了驾驶人特性参数,并应用于自适应巡航的起停控制系统. 文献[15-16]采用强化学习方法进行跟驰建模,并在学习过程中考虑了驾驶员行为特性.
为使得车辆自主跟驰功能能够满足不同驾驶员需求,文献[17-18]在进行安全距离建模时考虑了驾驶员行为特性. 文献[19]将驾驶员数据进行聚类分析,并基于驾驶风格辨识设计了不同的ACC控制器参数,提高了ACC系统人性化. 文献[20-21]采用逆强化学习方法,直接从驾驶员数据中拟合出决策算法,实现了拟人化的跟驰决策.
针对不同驾驶员的驾驶习性,基于模拟驾驶试验采集驾驶员真实驾驶数据和深度强化学习的车辆个性化自主跟驰控制算法进行研究,以期通过设置奖励函数满足车辆跟驰过程的安全性、舒适性和宜人性,并采用改进DDPG算法实现车辆加速度自适应控制.
Study of Personalized Car-following Control Strategy by Considering the Driver Characteristics
-
摘要: 为提高车辆自主跟驰功能的个性化程度, 使之能适应不同驾驶员的驾驶风格, 提高乘员对自动驾驶功能的接受度, 提出了一种基于深度强化学习的个性化跟驰控制策略. 首先基于模拟驾驶试验平台进行驾驶员在环试验, 获取真实驾驶员跟驰数据. 根据车辆跟驰动力学, 建立了连续动作空间决策模型. 构建了基于Actor-Critic的深度强化学习架构, 并综合考虑跟驰过程的安全性、舒适性和宜人性设计了奖励函数, 通过双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)对决策模型进行训练. 基于CARLA模拟器的仿真结果表明, 本研究提出的个性化跟驰控制策略在保证车辆自主跟驰过程稳定性和安全性的前提下, 其决策结果更接近驾驶员驾驶习性.Abstract: In order to improve the degree of personalization of the car-following control which makes it can adapt to the driving styles of different drivers, a personalized car-following control algorithm based on deep reinforcement learning is proposed in this paper. Firstly, the driving simulation platform was established to adopt the driver-in-loop experiment for obtaining the real driver following data. Then, based on the car-following dynamics, the continues action space decision model was built. The deep reinforcement learning model was introduced with actor-critic architecture and the reward function was designed considering the safety, comfort, and driver behavior. The Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm was proposed to train the decision model. Finally, the results of simulation based on the CARLA simulator demonstrated that the personalized car-following control strategy proposed in this paper is closer to the driving habits of human drivers on the premise of ensuring the stability and safety of the autonomous car-following process.
-
Key words:
- autonomous car-following /
- personalization /
- deep reinforcement learning /
- reward function .
-
表 1 基于TD3的个性化跟驰控制策略伪代码
算法:基于TD3的个性化跟驰控制策略 初始化策略网络参数θ,价值网络参数ω1,ω2及经验回放数组D
初始化目标策略网络参数和目标价值网络参数θ-=θ,ω1=ω1,ω2=ω2
开始循环
从驾驶员跟驰数据集中抽取一段跟驰数据,采集状态s,根据策略网络选择动作a=μ(s)+ε并执行
采集奖励R,下一步状态s′,终止条件判定逻辑值d
将(s,a,r,s′,d)存入经验回放数组D
if d==1
重置环境状态,重新抽取跟驰轨迹.
从经验回放数组随机采样
按式(21)计算TD目标
按式(17)更新价值网络参数
每隔t轮
按式(11)更新策略网络参数
更新目标网络参数
θ-=τθ+(1-τ)θ-
ωi=τωi+(1-τ)ωi
结束循环 -
[1] YI K, WOO M, KIM S H, et al. An Experimental Investigation of a CW/CA System for Automobile using Hardware in the Loop Simulation[C]. San Diego: Proceedings of the American Control Conference, 1999. [2] YIZHEN Z, ANTONSSON E K, GROTE K. A New Threat Assessment Measure for Collision Avoidance Systems[C]. Toronto: Proceedings of the 2006 IEEE Intelligent Transportation Systems Conference, 2006. [3] AOUDE G S, LUDERS B D, LEE K, et al. Threat Assessment Design for Driver Assistance System at Intersections[C]. Madeira Island: Proceedings of the 13th International IEEE Conference on Intelligent Transportation Systems, 2010. [4] MASUMI N, RAKSINCHAROENSAK P, NAGAI M. Study on Forward Collision Warning System Adapted to Driver Characteristics and Road Environment[C]. Seoul: Proceedings of the 2008 International Conference on Control, Automation and Systems, 2008. [5] ZHANG R, LI K, HE Z, et al. Advanced Emergency Braking Control Based on a Nonlinear Model Predictive Algorithm for Intelligent Vehicles[J]. Applied Sciences, 2017, 7(5): 504. doi: 10.3390/app7050504 [6] 李霖, 朱西产, 董小飞, 等. 自主紧急制动系统避撞策略的研究[J]. 汽车工程, 2015, 37(2): 168-174. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-QCGC201502008.htm [7] GERDES J C, HEDRICK J. Vehicle Speed and Spacing Control Via Coordinated Throttle and Brake Actuation[J]. Control Engineering Practice, 1997, 5(11): 1607-1614. doi: 10.1016/S0967-0661(97)10016-8 [8] KIM H, KIM D, SHU I, et al. Time-varying Parameter Adaptive Vehicle Speed Control[J]. IEEE Transactions on Vehicular Technology, 2016, 65(2): 581-588. doi: 10.1109/TVT.2015.2402756 [9] LI S, LI K Q, RAJAMANI R, et al. Model Predictive Multi-objective Vehicular Adaptive Cruise Control[J]. IEEE Transactions on Control Systems Technology, 2011, 19(3): 556-566. doi: 10.1109/TCST.2010.2049203 [10] REN Y, ZHENG L, YANG W, LI Y N. Potential Field Based Hierarchical Adaptive Cruise Control for Semi-autonomous Electric Vehicle[J]. The Proc. IMechE, Part D: Journal of Automobile Engineering, 2019, 233(10): 2479-2491. doi: 10.1177/0954407018797571 [11] 罗颖, 秦文虎, 翟金凤. 基于改进DDPG算法的车辆低速跟驰行为决策研究[J]. 测控技术, 2019, 38(9): 19-23. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-IKJS201909004.htm [12] 朱冰, 蒋渊德, 赵健, 等. 基于深度强化学习的车辆跟驰控制[J]. 中国公路学报, 2019, 32(6): 53-60. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZGGL201906006.htm [13] 管欣, 王景武, 高振海. 基于最优预瞄加速度决策的汽车自适应巡航控制系统[J]. 吉林大学学报(工学版), 2004, 34(2): 190-193. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JLGY200402005.htm [14] YI K, MOON I K. A Driver-adaptive Stop-and-go Cruise Control Strategy[C]. Taipei: IEEE International Conference on Networking, Sensing and Control, 2004. [15] ZHU M, WANG X, WANG Y. Human-like Autonomous Car-following Model with Deep Reinforcement Learning[J]. Transportation Research Part C: Emerging Technologies, 2018, 97: 348-368. doi: 10.1016/j.trc.2018.10.024 [16] CHEN X, ZHAI Y, LU C, et al. A Learning Model for Personalized Adaptive Cruise Control[C]. Redondo Beach: 2017 IEEE Intelligent Vehicles Symposium(IV), 2017. [17] MARTINEZ J J, CANUDAS C. A Safe Longitudinal Control for Adaptive Cruise Control and Stop-and-go Scenarios[J]. IEEE Transactions on Control Systems Technology, 2007, 15(2): 246-258. doi: 10.1109/TCST.2006.886432 [18] 边明远. 考虑驾驶员个体特性的汽车安全行驶间距模型[J]. 中国机械工程, 2010, 21(12): 1502-1506. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZGJX201012027.htm [19] 陈涛, 郭丛帅, 李旭川, 等. 适应驾驶人的个性化自适应巡航控制策略[J]. 重庆理工大学学报(自然科学), 2021, 35(7): 1-9. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-CGGL202107001.htm [20] JIANG Y, DENG W, WANG J. Studies on Drivers' Driving Styles Based on Inverse Reinforcement Learning[N]. SAE Paper, 2018-01-06(12). [21] 唐明弘. 基于深度强化学习的拟人化自适应巡航控制算法设计[D]. 长春: 吉林大学, 2020. [22] 余志生. 汽车理论: 第6版[M]. 北京: 机械工业出版社, 2018. [23] 杨威. 高速跟车工况下智能汽车个性化驾驶决策方法研究[D]. 重庆: 重庆大学, 2020. [24] 裴晓飞, 莫烁杰, 陈祯福, 等. 基于TD3算法的复杂交通环境自动驾驶汽车换道研究[J]. 中国公路学报, 2021, 34(11): 246-254. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZGGL202111020.htm