留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

基于Q学习的源荷扰动下交直流微电网负荷频率控制方法

上一篇

下一篇

邹玉意, 陈勇, 刘越智, 等. 基于Q学习的源荷扰动下交直流微电网负荷频率控制方法[J]. 西南大学学报(自然科学版), 2025, 47(5): 188-198. doi: 10.13718/j.cnki.xdzk.2025.05.016
引用本文: 邹玉意, 陈勇, 刘越智, 等. 基于Q学习的源荷扰动下交直流微电网负荷频率控制方法[J]. 西南大学学报(自然科学版), 2025, 47(5): 188-198. doi: 10.13718/j.cnki.xdzk.2025.05.016
ZOU Yuyi, CHEN Yong, LIU Yuezhi, et al. Load Frequency Control Method for AC-DC Microgrid with Power and Load Disturbance Based on Q-learning[J]. Journal of Southwest University Natural Science Edition, 2025, 47(5): 188-198. doi: 10.13718/j.cnki.xdzk.2025.05.016
Citation: ZOU Yuyi, CHEN Yong, LIU Yuezhi, et al. Load Frequency Control Method for AC-DC Microgrid with Power and Load Disturbance Based on Q-learning[J]. Journal of Southwest University Natural Science Edition, 2025, 47(5): 188-198. doi: 10.13718/j.cnki.xdzk.2025.05.016

基于Q学习的源荷扰动下交直流微电网负荷频率控制方法

  • 基金项目: 国家重点研发计划“政府间国际科技创新合作”重点专项(2022YFE0120700);埃及科技创新基金项目(44236)
详细信息
    作者简介:

    邹玉意,硕士研究生,主要从事微电网控制、隐私保护研究 .

    通讯作者: 陈勇,博士,教授,博士研究生导师; 
  • 中图分类号: TM46

Load Frequency Control Method for AC-DC Microgrid with Power and Load Disturbance Based on Q-learning

  • 摘要:

    交直流微电网是实现可再生能源高效利用的有效手段,为了保证电能质量,交直流微电网系统的频率应该在源荷扰动的条件下保持稳定。常见的负荷频率控制方法存在易受模型精度影响和对扰动考虑不完善等问题,控制效果不容易达到预期。提出了基于Q学习的交直流微电网负荷频率控制方法:在微电网模型上,分析了交直流微电网的特点,并建立了交直流微电网基准系统;在控制方法上,采用的Q学习算法能够无需系统动力学知识而求解系统的控制问题,提高了方法的实用性;仿真表明,通过所提方法,在源荷扰动下交直流微电网系统的频率可达到期望的扰动抑制效果,从而保证自身的安全运行。

  • 加载中
  • 图 1  交直流微电网结构图

    图 2  Q学习算法流程图

    图 3  在情况1下常规Q学习算法的结果图

    图 4  在情况1下改进Q学习算法的结果图

    图 5  在情况2下常规Q学习算法的结果图

    图 6  在情况2下改进Q学习算法的结果图

  • [1] 成煜钤, 李帅, 孟高军, 等. 基于微电网储能控制系统的电能质量综合治理研究[J]. 可再生能源, 2023, 41(6): 810-817.
    [2] 夏栋, 徐耀良, 郭卫民, 等. 基于实时功率判别的直流微电网协调控制策略研究[J]. 可再生能源, 2017, 35(7): 1038-1046.
    [3] 范培潇, 杨军, 柯松, 等. 基于改进EDRL的含V2G孤岛微电网频率综合控制策略[J]. 电力系统自动化, 2023, 47(20): 23-32.
    [4] 岳应娟, 凤林, 蔡艳平, 等. 交直流混合微电网运行控制技术[J]. 科学技术与工程, 2022, 22(28): 12242-12252.
    [5] 刘奕彤, 李正烁, 樊淼. 基于量测反馈的交直流混合微电网分布式指令追踪方法[J]. 电力系统自动化, 2022, 46(24): 85-94.
    [6] 米阳, 王鹏, 邓锦, 等. 孤岛交直流混合微电网群分层协调控制[J]. 电力系统保护与控制, 2021, 49(20): 1-8.
    [7] LIUW, SHEN J, ZHANG S C, et al. Distributed Secondary Control Strategy Based on Q-learning and Pinning Control for Droop-controlled Microgrids[J]. Journal of Modern Power Systems and Clean Energy, 2022, 10(5): 1314-1325. doi: 10.35833/MPCE.2020.000705
    [8] 范培潇, 杨军, 肖金星, 等. 基于深度Q学习的含电动汽车孤岛微电网负荷频率控制策略[J]. 电力建设, 2022, 43(4): 91-99.
    [9] YANGY J, WAN Y, ZHU J H, et al. H Tracking Control for Linear Discrete-time Systems: Model-free Q-learning Designs[J]. IEEE Control Systems Letters, 2021, 5(1): 175-180. doi: 10.1109/LCSYS.2020.3001241
    [10] LINS W, CHU C C, TUNG C F. Data-driven Distributed Q-learning Droop Control for Frequency Synchronization and Voltage Restoration in Isolated AC Micro-grids[J]. IEEE Transactions on Industry Applications, 2023, 59(6): 7306-7317. doi: 10.1109/TIA.2023.3300290
    [11] LIUH T, WU W C. Federated Reinforcement Learning for Decentralized Voltage Control in Distribution Networks[J]. IEEE Transactions on Smart Grid, 2022, 13(5): 3840-3843. doi: 10.1109/TSG.2022.3169361
    [12] YANGY L, GUO Z S, XIONG H Y, et al. Data-driven Robust Control of Discrete-time Uncertain Linear Systems via Off-policy Reinforcement Learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(12): 3735-3747. doi: 10.1109/TNNLS.2019.2897814
    [13] 赵斐然, 游科友. 数据驱动的策略优化控制律设计最新研究综述[J]. 中国科学: 信息科学, 2023, 53(6): 1027-1049.
    [14] 李臻, 范家璐, 姜艺, 等. 一种基于Off-Policy的无模型输出数据反馈H控制方法[J]. 自动化学报, 2021, 47(9): 2182-2193.
    [15] WANG D, HE H B, MU C X, et al. Intelligent Critic Control with Disturbance Attenuation for Affine Dynamics Including an Application to a Microgrid System[J]. IEEE Transactions on Industrial Electronics, 2017, 64(6): 4935-4944. doi: 10.1109/TIE.2017.2674633
  • 加载中
图( 6)
计量
  • 文章访问数:  83
  • HTML全文浏览数:  83
  • PDF下载数:  24
  • 施引文献:  0
出版历程
  • 收稿日期:  2024-11-30
  • 刊出日期:  2025-05-20

基于Q学习的源荷扰动下交直流微电网负荷频率控制方法

    通讯作者: 陈勇,博士,教授,博士研究生导师; 
    作者简介: 邹玉意,硕士研究生,主要从事微电网控制、隐私保护研究
  • 1. 电子科技大学 自动化工程学院,成都 611731
  • 2. 阿斯旺大学 能源工程学院,埃及 阿斯旺 81528
基金项目:  国家重点研发计划“政府间国际科技创新合作”重点专项(2022YFE0120700);埃及科技创新基金项目(44236)

摘要: 

交直流微电网是实现可再生能源高效利用的有效手段,为了保证电能质量,交直流微电网系统的频率应该在源荷扰动的条件下保持稳定。常见的负荷频率控制方法存在易受模型精度影响和对扰动考虑不完善等问题,控制效果不容易达到预期。提出了基于Q学习的交直流微电网负荷频率控制方法:在微电网模型上,分析了交直流微电网的特点,并建立了交直流微电网基准系统;在控制方法上,采用的Q学习算法能够无需系统动力学知识而求解系统的控制问题,提高了方法的实用性;仿真表明,通过所提方法,在源荷扰动下交直流微电网系统的频率可达到期望的扰动抑制效果,从而保证自身的安全运行。

English Abstract

  • 开放科学(资源服务)标识码(OSID):

  • 大力发展风、光等可再生能源,提高其在能源结构中的比重成为实现“双碳”战略的重要途经[1]。风、光等可再生能源具有污染小、储量大、分布广等优点,但也存在随机性、波动性大且易受到外界环境影响等缺点[2]。微电网是实现风、光等可再生能源高效利用的有效手段[3],其中交直流微电网结合了交流微电网和直流微电网的优点[4],在顺应交流系统的主导地位的同时又兼顾直流负荷的需求,因此交直流微电网技术的发展与研究受到前所未有的关注和重视[5],是未来微电网的重要研究方向[6]。分布式电源的功率扰动以及负荷变化都会造成交直流微电网系统频率的偏差,给其正常运行带来巨大挑战[7]。交直流微电网的频率稳定是保障其运行的关键[8],而且频率也是评价微电网电能质量的重要指标。负荷频率控制(Load Frequency Control,LFC)方法就是通过微电网电源和负荷之间的功率平衡来实现其频率稳定的。

    H控制因其在抑制扰动方面的鲁棒性而倍受关注[9],被认为与零和博弈问题密切相关。求解博弈代数黎卡提方程(Game Algebraic Riccati Equation,GARE)可以解决线性系统的零和博弈问题,但是直接求解GARE需要完整的系统动力学知识,而在实际生产中很难建立精确的系统动力学模型,因此无模型方法的研究就显得非常重要[10]。强化学习(Reinforcement Learning,RL)能够通过定期实施性能评估和策略更新,在不确定甚至未知的环境中学习最优控制策略[11]。重要的是,强化学习可以应用于解决H控制问题[12]。近年来强化学习在动力学系统的控制上取得了许多成果[13],李臻等[14]针对线性离散系统在扰动存在条件下的控制问题,提出了一种利用历史输入输出数据实现最优输出反馈策略的学习算法。在实际应用中,整个系统的状态可能无法完全测量,因而所提出的输出数据驱动方法比状态数据驱动方法更强大。

    本研究提出了一种基于Q学习的交直流微电网负荷频率控制方法,通过采集微电网的输入输出数据用最小二乘法求解GARE且无需系统动力学知识,避免了在线算法需要频繁调节控制和扰动策略的缺点。仿真结果对本文所提出算法的有效性进行了验证。

  • 结合柴油发电机特点设计的交直流微电网结构如图 1。随着对可再生分布式能源的利用与发展,不同类型的负荷迅速增加,交直流微电网的发展受到了重点关注。交直流微电网包含直流母线和交流母线,可以同时给交流负载和直流负载供电,能够减少电能变换器的数量。交直流微电网也结合了交流微电网和直流微电网的优点,降低了电能变换的损耗,提高了微电网的可靠性,成本大大降低。

    风力发电机组的发电功率取决于风速v,本研究风力发电机组的输出功率PWT满足:

    式中:ρ为空气密度;Ar为风力发电机组叶片面积;Cp是风力发电机组的功率系数。

    本研究光伏发电系统的输出功率PPV满足:

    式中:η为光伏阵列的转换效率;S为光伏阵列的面积;Φ为太阳辐射强度;Ta为环境温度。

    定义$ \boldsymbol{x}(t)=[\Delta f, \Delta P, \Delta p]^{\mathrm{T}} \in \mathbb{R}^n$为状态向量,$ \boldsymbol{u}(t) \in \mathbb{R}^{m_1}$为交直流微电网系统的控制信号,$ \boldsymbol{w}(t)=\boldsymbol{w}_{\mathrm{WT}}(t)+\boldsymbol{w}_{\mathrm{PV}}(t)+ \boldsymbol{w}_{\text {load }}(t) \in \mathbb{R}^{m_2}$是源荷扰动,那么源荷扰动下的交直流微电网系统模型可以被描述为:

    其中具体的状态空间方程参数为:

    式中:Δf表示频率偏差;ΔP表示涡轮功率;Δp表示调速器位置值;wWTwPVwload分别表示由风机、光伏以及负载引起的功率变化;Tp表示交直流微电网系统的时间常数;kp表示交直流微电网系统的增益;Tt表示涡轮机的时间常数;Tg表示调速器的时间常数;sp表示调速系数。

    随后对交直流微电网模型进行离散化,得到其离散模型:

    从交直流微电网的模型中可以发现,风能、光伏发电以及负载功率的变化都会引起系统频率的变化。频率的稳定性是评价交直流微电网系统质量和性能的重要指标,因此需要设计一种鲁棒的LFC方案来实现交直流微电网系统频率的稳定。

    H控制广泛用于减弱扰动对动力系统性能的影响,对于式(4)中的交直流微电网离散模型,当其满足:

    时,交直流微电网系统的L2增益小于等于γ

    定义交直流微电网系统的H控制目标:找到一个控制信号u,使得:

    ① 当w=0时,系统渐进稳定。

    ② 满足扰动衰减调节,即系统的L2增益小于等于γ

  • H控制问题与零和博弈问题有很大的联系,而求解线性系统的博弈代数黎卡提方程(GARE)可以找到零和博弈问题的解。目前大部分求解GARE的方法需要完整的系统动力学知识,而在实际应用中,很多情况下我们无法得到完整的系统动力学知识,故而需要无模型的算法来求解H控制问题。

    常规Q学习算法虽然在求解最优控制策略和最坏扰动时无需系统动力学知识,但算法中每次迭代过后都需要通过更新后的控制策略来产生输出和扰动,在实际情况下难以保证在迭代过程中每一次更新的策略都是稳定的,而且常规的Q学习算法要求扰动按照期望进行调节并应用于系统动力学以收集数据,这在实际应用中不符合物理条件,扰动是独立的,无法按照指定的方式进行更新,因此考虑对常规Q学习算法进行改进,源荷扰动下的交直流微电网离散模型式(4)重写为:

    其中Ak= A -BK1j-DK2j

    依据式(6)定义目标策略:$ \boldsymbol{u}_k^j=-\boldsymbol{K}_1^j \boldsymbol{x}_k, \boldsymbol{w}_k^j=-\boldsymbol{K}_2^j \boldsymbol{x}_k$,目标策略作为算法正在更新和迭代,而ukwk则作为行为策略,实际应用于系统动力学以收集数据,因此作用于系统的扰动wk无需按照期望进行调节。

    那么贝尔曼方程为:

    考虑函数V (xk)在xk+1处进行泰勒展开:

    考虑式(8)并结合式(7)得到:

    然后结合式(6),将式(9)重写为Kronecker积的形式:

    令:

    其中:

    而且有:

    那么可以求解L1~L7

    需要注意的是,使用最小二乘法求解L1~L7需要至少N3n2+m12+m22+2m1m2+n(m1+m2)数量的数据集。

    依据L1~L7求解目标策略K1j+1K2j+1

    离线策略无模型的Q学习算法求解目标策略无需系统动力学知识,且将目标策略与行为策略分离开,行为策略直接作用于系统用于收集数据而不参与更新,目标策略并不直接作用于系统也可根据收集的数据进行迭代更新,那么系统扰动即行为策略无需按照期望进行调节。

    离线策略无模型的Q学习算法的具体流程如图 2

    算法流程:

    ① 初始化行为策略K1K2,目标策略K1j+1K2j+1设置j=0。

    ② 将行为策略K1K2作用于系统,收集数据。

    ③ 策略评估:依据式(11)用最小二乘法求解L1~L7

    ④ 策略改进:依据式(12)用L1~L7得到目标策略K1j+1K2j+1,更新控制和扰动策略。

    ⑤ 终止条件:满足|K1j+1-K1j|≤ε、|K2j+1-K2j|≤ε时停止迭代,否则返回②。

  • 测试平台为MATLAB R2024a,测试系统采用式(4)的交直流微电网离散模型,基准系统具体的参数设置为Tt=5;Tg=0.2;Tp=2;kp=0.5;sp=0.5[15]。根据具体的测试系统参数以及采样时间T=0.05 s可以得到交直流微电网的离散模型:

    采用Q =diag(1,0,1),R=0.1,γ=0.8作为算法的参数,根据离散模型以及参数值,在算法开始前先用GARE求解得到理论的最优控制策略(K1*)和最坏扰动策略(K2*)为:K1*=[0.139 0 0.265 9 1.511 2]

    设置初始状态和策略为:

    设置总周期数为800个,分为训练周期和验证周期,在训练周期内向控制信号添加探测噪声,在验证周期内训练得到的策略进行系统控制。利用本文提出的改进Q学习算法与常规Q学习算法分别进行最优控制策略和最坏扰动策略的求解。对于常规Q学习算法每一轮迭代至少需要收集15组数据用于求解,对于改进Q学习算法每一轮迭代至少需要收集19组数据用于求解L1~L7,本研究设置两种算法每一轮迭代都收集20组数据用于求解,那么总迭代轮次为40轮,设置训练周期为400个,即训练轮次为20轮,验证周期为400个,验证轮次也为20轮。

    基于式(13)中的交直流微电网离散模型,并考虑两种不同的探测噪声:

    情况1:

    情况2:

    在探测噪声为情况1的条件下,常规的Q学习算法得到的结果如图 3图 3a的参数收敛图表示策略K1K2的迭代过程;图 3b中的系统收敛图则表示系统状态随周期的收敛过程;图 3c中的扰动示意图则表示系统扰动随周期的变化过程。

    参数收敛图表示每一轮迭代通过策略改进计算得到的控制策略与扰动策略收敛到理论的最优控制策略和最坏扰动策略的过程;系统收敛图与扰动示意图则表示每一个周期的系统状态与扰动的值。

    在探测噪声为情况1的条件下,改进Q学习算法得到的结果如图 4

    通过图 3图 4中的参数收敛图可以看到,在同样的参数下,改进Q学习算法的收敛速度更快且收敛值更为精确。通过扰动示意图可以看到,在图 3c中常规Q学习算法的扰动情况是根据参数迭代情况进行调节的,而在图 4c中的改进Q学习算法是预设的真实扰动情况,无需根据参数迭代情况进行调节。

    在探测噪声为情况2的条件下,常规Q学习算法得到的结果如图 5,改进Q学习算法得到的结果如图 6

    通过图 3图 5图 4图 6中的参数收敛图可以看出,参数的收敛曲线探测噪声改变时几乎不会发生变化,说明算法不会受到探测噪声影响而导致错误的结果。通过两种算法的参数收敛图以及系统收敛图可以看出,改进Q学习算法后的收敛速度更快而且收敛精度也更高,且系统收敛后在扰动作用下可以保证系统频率偏差|Δf|<0.2,满足性能的要求。通过两种算法的扰动示意图可以看出,当探测噪声改变后,常规Q学习算法的扰动需要根据参数迭代情况而进行调节,因而其扰动也发生了改变,而改进Q学习算法的扰动是预设的真实情况,不会随探测噪声改变而改变,说明改进Q学习算法的性能更好而且更实用。

  • 本研究建立了在源荷扰动下的交直流微电网的系统模型,提出了基于Q学习的负荷频率控制方法,考虑到可能存在的源荷扰动情况,提出了基于离线策略Q学习的负荷频率控制策略,主要结论为:①通过对交直流微电网结构以及各分布式设备的建模与分析,得到了源荷扰动下的交直流微电网的基准系统模型。②本研究设计的方法用于解决交直流微电网的H控制问题,不仅无需系统动力学知识,而且可以使扰动以真实情况进行调节。③在源荷扰动下交直流微电网系统的频率能够达到期望的性能,保证其安全运行。后续研究将考虑交直流微电网频率和电压的关系并进行电压的稳定控制,以及将Q学习算法与隐私保护法相结合设计加密控制器后对系统的影响。

参考文献 (15)

目录

/

返回文章
返回