留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

基于PCA建立蜡梅花初花期预测模型

上一篇

下一篇

吉莉, 刘晓冉, 武强, 等. 基于PCA建立蜡梅花初花期预测模型[J]. 西南师范大学学报(自然科学版), 2022, 47(10): 59-66. doi: 10.13718/j.cnki.xsxb.2022.10.009
引用本文: 吉莉, 刘晓冉, 武强, 等. 基于PCA建立蜡梅花初花期预测模型[J]. 西南师范大学学报(自然科学版), 2022, 47(10): 59-66. doi: 10.13718/j.cnki.xsxb.2022.10.009
JI Li, LIU Xiaoran, WU Qiang, et al. Establishment of Prediction Model of Early Flowering Period of Prunus Mume Based on PCA[J]. Journal of Southwest China Normal University(Natural Science Edition), 2022, 47(10): 59-66. doi: 10.13718/j.cnki.xsxb.2022.10.009
Citation: JI Li, LIU Xiaoran, WU Qiang, et al. Establishment of Prediction Model of Early Flowering Period of Prunus Mume Based on PCA[J]. Journal of Southwest China Normal University(Natural Science Edition), 2022, 47(10): 59-66. doi: 10.13718/j.cnki.xsxb.2022.10.009

基于PCA建立蜡梅花初花期预测模型

  • 基金项目: 重庆市市场监管局第二批地方标准制修定计划项目(2022-71); 北碚区科委项目(2022-32)
详细信息
    作者简介:

    吉莉, 高级工程师, 主要从事气象服务研究工作 .

    通讯作者: 刘晓冉, 博士, 正高级工程师; 
  • 中图分类号: P49; S16

Establishment of Prediction Model of Early Flowering Period of Prunus Mume Based on PCA

  • 摘要: 以重庆市北碚区静观素心蜡梅早熟品种的初花期为研究对象, 统计分析2007-2021年初花期变化特征, 并基于主成分分析法(PCA), 通过BP神经网络算法及逐步回归算法, 构建了2007-2021年初花期预测模型, 对2种预测模型的预报效果进行对比检验, 筛选最优预测模型. 结果表明: 基于BP神经网络算法的预测模型在训练中的预报拟合率高达99%, 与实测值的相关性超过了0.9, 拟合度较高, 在回代检验中拟合率低于训练时; 基于逐步回归算法的预测模型在训练中与实测值误差大于基于BP神经网络算法, 平均误差为1.7 d, 在回代检验中效果明显优于基于BP神经网络算法, 且线性相关性也较稳定; 同时在回代模型中基于逐步回归算法的预测模型的独立样本值、标准差和平均绝对误差也同样优于基于BP神经网络算法的预测模型. 总体来说, 基于逐步回归算法的预测模型更优于基于BP神经网络算法的预测模型.
  • 加载中
  • 图 1  2007-2021年蜡梅花初花期及入冬日变化图

    图 2  蜡梅初花期前期气温趋势图

    图 3  模型预测值与实际值对比图

    图 4  模型检验对比

    图 5  2007-2021年模型预报初花期日序箱线图

    表 1  影响蜡梅初花期的气象因子

    气象要素 气象因子 数量
    气温 11月≥10 ℃活动积温、11月≥10 ℃有效积温、11月上旬平均气温、11月中旬平均气温、11月下旬平均气温、11月上旬极端最低气温、11月中旬极端最低气温、11月下旬极端最低气温、11月上旬极端最高气温、11月中旬极端最高气温、11月下旬极端最高气温 11
    降水 11月中旬降水、11月下旬降水、11月上旬降水、11月雨日 4
    日照 11月上旬日照、11月中旬日照、11月下旬日照 3
    下载: 导出CSV

    表 2  2007-2021年气象资料主成分特征值和方差贡献率

    成分 初始特征值 提取载荷平方和 旋转载荷平方和
    总计 方差百分比 累积% 总计 方差百分比 累积% 总计 方差百分比 累积%
    1 4.907 27.261 27.261 4.907 27.261 27.261 3.938 21.878 21.878
    2 3.476 19.309 46.570 3.476 19.309 46.570 2.706 15.033 36.912
    3 2.325 12.915 59.485 2.325 12.915 59.485 2.645 14.694 51.606
    4 1.957 10.873 70.358 1.957 10.873 70.358 2.420 13.445 65.050
    5 1.631 9.059 79.417 1.631 9.059 79.417 1.862 10.344 75.394
    6 1.048 5.821 85.239 1.048 5.821 85.239 1.772 9.844 85.239
    下载: 导出CSV

    表 3  2007-2021年气象资料主成分特征向量

    气象因子 第1主成分 第2主成分 第3主成分 第4主成分 第5主成分 第6主成分
    X1:11月上旬日照 0.026 0.862 0.070 -0.060 -0.295 0.322
    X2:11月中旬日照 -0.021 0.122 0.870 -0.083 0.007 -0.150
    X3:11月下旬日照 -0.335 0.106 -0.723 -0.115 0.110 -0.024
    X4:11月上旬平均气温 0.142 0.131 -0.051 0.837 -0.055 -0.009
    X5:11月中旬平均气温 0.665 0.275 0.464 0.254 0.234 -0.174
    X6:11月下旬平均气温 0.834 -0.221 -0.086 -0.173 0.283 0.216
    X7:11月上旬降水 0.150 -0.136 0.118 -0.011 0.834 0.036
    X8:11月中旬降水 0.313 -0.136 -0.090 -0.049 -0.306 0.802
    X9:11月下旬降水 -0.098 -0.396 0.384 -0.296 -0.308 -0.630
    X10:11月上旬极端最低气温 0.063 -0.126 0.269 0.893 -0.086 0.132
    X11:11月中旬极端最低气温 0.883 0.133 0.154 0.305 0.161 -0.053
    X12:11月下旬极端最低气温 0.757 -0.186 0.321 -0.326 0.044 0.244
    X13:11月上旬极端最高气温 -0.314 0.828 0.136 0.317 0.011 0.104
    X14:11月中旬极端最高气温 0.139 0.144 0.807 0.270 0.141 0.076
    X15:11月下旬极端最高气温 0.367 0.022 -0.100 -0.120 0.806 -0.152
    X16:11月≥10 ℃活动积温 0.942 0.052 0.097 0.231 0.130 0.107
    X17:11月≥10 ℃有效积温 0.112 -0.282 -0.279 -0.519 -0.129 -0.585
    X18:11月雨日 -0.166 -0.862 -0.025 0.063 -0.051 0.230
    下载: 导出CSV

    表 4  各模型预测模型的预测值与实测值统计分析

    2007-2017年 实测值 预测模型
    BP神经网络算法 逐步回归算法
    平均值 344 344.5 344.5
    最大值 351 350.9 349.18
    最小值 338 338.1 338.8
    线性相关性 —— 0.99 0.78
    平均绝对误差 —— 0.109 1.753
    标准差 —— 0.171 2.212
    2018-2021年 实测值 预测模型
    BP神经网络算法 逐步回归算法
    平均值 345 346.1 345.4
    最大值 349 349.3 348.7
    最小值 339 342.5 341.8
    线性相关性 —— 0.50 0.77
    平均绝对误差 —— 3.342 2.056
    标准差 —— 4.215 2.626
    下载: 导出CSV
  • [1] 邵金彩, 杨灿芳, 关正, 等. 重庆市静观镇蜡梅产业现状与发展策略[J]. 北京林业大学学报, 2015, 37(S1): 29-33. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-BJLY2015S1007.htm
    [2] 杜军, 厉爱丽, 次旺顿珠, 等. 藏东南冬小麦生育期变化及其对气候变化的响应[J]. 生态学杂志, 2022, 41(4): 668-675. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-STXZ202204007.htm
    [3] 刘璐, 王景红, 傅玮东, 等. 中国北方主产地苹果始花期与气候要素的关系[J]. 中国农业气象, 2020, 41(1): 51-60. doi: 10.3969/j.issn.1000-6362.2020.01.006
    [4] 李文静, 黄蔚薇, 李倩, 等. 长江流域油菜花期预报方法研究[J]. 中国农业资源与区划, 2020, 41(2): 101-108. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZGNZ202002015.htm
    [5] 林婷, 石雅, 王海洋, 等. 重庆地区毛叶木姜子种群结构及开花特征分析[J]. 西南师范大学学报(自然科学版), 2020, 45(7): 47-54. doi: 10.13718/j.cnki.xsxb.2020.07.007 doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xsxb.2020.07.007 doi: 10.13718/j.cnki.xsxb.2020.07.007
    [6] 王雷, 李玲莉, 王海洋, 等. 重庆市46种木本园林植物不同生长型对开花物候的效应[J]. 西南大学学报(自然科学版), 2020, 42(11): 86-94. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XNND202011010.htm
    [7] GONSAMO A, CHEN J M, WU C Y. Citizen Science: Linking the Recent Rapid Advances of Plant Flowering in Canada with Climate Variability[J]. Scientific Reports, 2013, 3: 2239. doi: 10.1038/srep02239
    [8] 刘流, 甘一忠. 桃花迟早年型的冬季气候特点及花期预测[J]. 气象, 2006, 32(1): 113-116. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-QXXX200601020.htm
    [9] 张志薇, 高苹, 王宏斌, 等. 油菜花最佳观赏期变化及其对温度因子的响应[J]. 气象, 2019, 45(5): 667-675. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-QXXX201905008.htm
    [10] 孙明, 徐敏, 高苹, 等. 气象条件对悬铃木始花期的影响分析及预报模型构建——以江苏兴化为例[J]. 气象, 2021, 47(7): 862-871. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-QXXX202107009.htm
    [11] 岳高峰, 王丽萍, 刘丽, 等. 基于气象条件下的牡丹花期预报预测研究[J]. 江西农业学报, 2020, 32(2): 105-109. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JXNY202002020.htm
    [12] 李菁博, 陈进勇, 程炜. 北京地区蜡梅冬季开花的影响因素研究[J]. 北京林业大学学报, 2012, 34(S1): 122-126. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-BJLY2012S1029.htm
    [13] 周贝宁, 毛恋, 花壮壮, 等. 碱性盐胁迫对夏蜡梅光合荧光特性影响[J]. 浙江农业学报, 2021, 33(8): 1416-1425. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZJNB202108010.htm
    [14] 张家瑞, 杨姗. 重庆市北碚区蜡梅产业化开发利用思考[J]. 南方农业, 2014, 8(22): 58-60. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-NFNY201422024.htm
    [15] 赵冰, 张启翔. 中国蜡梅种质资源研究进展[J]. 西北林学院学报, 2007, 22(4): 57-61. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XBLX200704016.htm
    [16] 程红梅, 周耘峰, 詹双侯. 蜡梅栽培现状及资源保护和利用[J]. 北京林业大学学报, 2007, 29(S1): 130-133. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-BJLY2007S1032.htm
    [17] 李海燕, 邵金彩, 王静, 等. NaCl胁迫对5年生蜡梅生长及生理特性的影响[J]. 东北林业大学学报, 2021, 49(3): 31-38. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-DBLY202103006.htm
    [18] 郭亚菲, 樊超, 闫洪涛. 基于主成分分析和粒子群优化神经网络的粮食产量预测[J]. 江苏农业科学, 2019, 47(19): 241-245. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSNY201919056.htm
    [19] 谭静, 陈正洪, 肖玫. 武汉大学樱花花期长度特征及预报方法[J]. 生态学报, 2021, 41(1): 38-47. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-STXB202101004.htm
    [20] 朱兰娟, 金志凤, 张玉静, 等. 西湖龙井茶开采期影响因子及预报模型[J]. 中国农业气象, 2019, 40(3): 159-169. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZGNY201903003.htm
    [21] 孙家清, 张志薇, 艾文文. BP神经网络在油菜花期预报中的应用[J]. 气象与环境科学, 2019, 42(4): 22-26. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-HNQX201904004.htm
    [22] 陈颖, 张仲伍. 基于聚类分析和主成分分析的城市空气质量评价——以山西省11个地级市为例[J]. 山西师范大学学报(自然科学版), 2020, 34(4): 72-78. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-SFDX202004012.htm
    [23] 李萍, 曾令可, 税安泽, 等. 基于MATLAB的BP神经网络预测系统的设计[J]. 计算机应用与软件, 2008, 25(4): 149-150, 184. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JYRJ200804057.htm
    [24] 徐敏, 赵艳霞, 张顾, 等. 基于机器学习算法的冬小麦始花期预报方法[J]. 农业工程学报, 2021, 37(11): 162-171. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-NYGU202111018.htm
    [25] 冯敏玉, 孔萍, 胡萍, 等. 基于花前物候利用灰色关联分析法建立油菜花期预报模型[J]. 中国农业气象, 2021, 42(11): 929-938. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZGNY202111005.htm
  • 加载中
图( 5) 表( 4)
计量
  • 文章访问数:  959
  • HTML全文浏览数:  959
  • PDF下载数:  145
  • 施引文献:  0
出版历程
  • 收稿日期:  2022-06-06
  • 刊出日期:  2022-10-20

基于PCA建立蜡梅花初花期预测模型

    通讯作者: 刘晓冉, 博士, 正高级工程师; 
    作者简介: 吉莉, 高级工程师, 主要从事气象服务研究工作
  • 1. 重庆市北碚区气象局, 重庆 400700
  • 2. 重庆市气象科学研究所, 重庆 401147
基金项目:  重庆市市场监管局第二批地方标准制修定计划项目(2022-71); 北碚区科委项目(2022-32)

摘要: 以重庆市北碚区静观素心蜡梅早熟品种的初花期为研究对象, 统计分析2007-2021年初花期变化特征, 并基于主成分分析法(PCA), 通过BP神经网络算法及逐步回归算法, 构建了2007-2021年初花期预测模型, 对2种预测模型的预报效果进行对比检验, 筛选最优预测模型. 结果表明: 基于BP神经网络算法的预测模型在训练中的预报拟合率高达99%, 与实测值的相关性超过了0.9, 拟合度较高, 在回代检验中拟合率低于训练时; 基于逐步回归算法的预测模型在训练中与实测值误差大于基于BP神经网络算法, 平均误差为1.7 d, 在回代检验中效果明显优于基于BP神经网络算法, 且线性相关性也较稳定; 同时在回代模型中基于逐步回归算法的预测模型的独立样本值、标准差和平均绝对误差也同样优于基于BP神经网络算法的预测模型. 总体来说, 基于逐步回归算法的预测模型更优于基于BP神经网络算法的预测模型.

English Abstract

  • 蜡梅为蜡梅科蜡梅属植物,是珍贵的天然香料植物[1]. 重庆市北碚区蜡梅种植面积占全市蜡梅总面积的85%,有500多年种植历史,与河南鄢陵、湖北保康并称为“中国三大蜡梅基地”,每年吸引了大量的游客来此地观赏蜡梅. 科学、准确地开展蜡梅花期预报可指导人们合理安排时间观赏蜡梅,促进当地生态旅游发展.

    关于植物花期与气候变化规律,以及花期预测技术国内外均有大量的研究[2-6]. Gonsamo等[7]模拟加拿大19种植物的始花期变化;刘流等[8]对桂林桃花开花期与气象要素的关系进行研究,发现桃花开花期与当年1月下旬到2月下旬气温和上年冬季降水量有显著的相关性;张志薇等[9]基于1986-2016年油菜花物候观测资料,分析了盛花期的物候特征及与温度因子的关系;孙明等[10]基于1990-2020年悬铃木花的物候资料,明确了关键气象因子对始花期的定量影响,并建立预测模型;岳高峰等[11]以牡丹花花期为预报主体,选取气温、积温、日照和空气湿度气象因子进行主成分分析和逐步回归分析,建立多元回归预测模型,为牡丹文化节组委会提供决策依据. 相对而言,由于蜡梅种植面积少,种植范围不广,对蜡梅花期研究较少,目前国内外关于蜡梅的研究报道主要集中在栽培技术[12-17]、化学成分、品种等方面.

    近年来,机器学习作为人工智能领域的重要分支,国内外越来越多的学者将机器学习技术应用于各个领域,其中在作物预测方面的研究取得了较好的成绩[18-20]. 这些分析方法能够从多水平、多因素着手,综合分析各指标的整体效应,使筛选出的结果更具科学性. 本研究以重庆市北碚区静观素心蜡梅早熟品种的初花期为研究对象,统计分析2007-2021年初花期变化特征,基于PCA主成分分析法,通过BP神经网络算法及逐步回归算法,对蜡梅初花期预测进行预测试验,以期为科学有效开展蜡梅初花期气象服务提供理论依据和技术支持.

  • 素心蜡梅初花期是指蜡梅树枝开花率为20%左右的时间,素心蜡梅早熟品种初花期2007-2013年资料为课题组对北碚区静观镇、柳荫镇等地实地走访调查所得,2014-2021年数据来源于静观蜡梅气象服务站观测数据. 气象资料是北碚区国家气象观测站2007-2021年逐日资料,包括平均气温、最低气温、最高气温、降水量、日照时数等,气温、降水量、日照时数的日气象资料统计为旬资料,雨日数为日降水量L≥0.1 mm的日数.

    蜡梅初花期转换为年日序值,即1月1日为1,1月2日为2,以此类推.

  • 影响蜡梅花开花的过程主要是受气温、降水、日照的影响. 光、温、水条件的匹配程度影响初花期的早晚时间,因此为筛选出对蜡梅花初花期有影响的气象因子,本研究将气温、降水、日照作为预测初花期的初选因子. 蜡梅一般在10月进入长枝期,11月进入定型期,花芽逐渐生出,早熟初花期一般在12月11日左右,因此本研究主要选取11月的18类气象因子(表 1).

  • 主成分分析(PCA)[21-22]是通过对协方差矩阵进行特征分析,在减少数据维数的同时,保持数据集对方差贡献最大的目的. 利用数据降维的思想,在损失较少数据信息的前提下,把多个指标转化成几个为数较少的综合指标的多元分析方法,各个主成分是原始变量的线性组合,彼此之间互不相关. 主成分分析以方差作为信息量的测度,取累计贡献率大的几个成分作为主成分.

  • BP神经网络算法是目前应用最广泛的预测方法,其基本思想是工作信号正向传递和误差信号反向传递两个子过程,学习规则和目标是使用最速下降法,通过反向传播不断调整网络的权值和阈值使全局误差系数最小,学习本质是对连接权值的动态调整. 基本结构由输入层、隐层和输出层构成[23].

  • 采用回归方法是根据自变量的取值来预测因变量的取值[24-25],以变量对目标的影响程度大小,从大到小逐个引入回归方程,再对回归方程所含的变量进行检验,显著则引入方程,不显著则剔除,直到没有显著因素可以引入,或不显著变量需剔除为止. 本文主要选取主成分作为初花期预测因子,采用SPSS软件,利用“步进法”建立蜡梅花初花期预测模型.

  • 偏度系数是统计数据分布偏斜方向和程度的度量,用于衡量数据的对称性的特征数;峰度系数是表征概率密度分布曲线在平均值处峰值高低的特征数. 本研究主要采用SPSS软件对蜡梅花序日进行正态分布性检验[23].

  • 通常使用的机器学习算法将数据样本分为训练集与测试集,通过训练集数据建立模型,测试数据则用于检验模型的泛化能力,因此在确定建立模型前,为消除指标之间的量纲影响,需对数据进行归一化处理. 通过对数据进行分段建模的方式拟合,本研究以2007-2017年有效初花期数据作为训练集数据,再选取高影响气象因子,以初花期日序为输入目标,利用SPPS Modeler软件构建BP神经网络预测模型和逐步回归预测模型,然后利用boosting集成学习思想,为每一个训练样本赋一个权重,在每一轮提升过程结束时自动调整权重,提高预测模型的泛化能力,防止模型过度拟合. 最后为进一步验证该模型的准确性,对2018-2021的数据进行预测效果检验.

  • 图 1蜡梅花初花期可知,2007-2021年,蜡梅初花期主要集中在12月,平均初花期在12月11日左右,接近入冬初日. 其中年份较晚的初花期出现在12月18日(2010年),最早的初花期出现在12月5日(2009年),最早和最晚的日期相差13 d. 采用偏度和峰度检验法,对蜡梅花序日进行正态分布性检验[23],计算出花序日时间序列的偏度、偏度标准差、峰度、峰度标准差,其值分别为-0.134,0.580,-0.055,1.121,发现偏度和峰度均在±1.96之间,说明静观蜡梅初花期资料符合正态分布的特征,可以通过建立回归模型进行预报.

    根据气象学定义,入冬日为当年滑动平均气温序列连续5天小于10 ℃,则以其对应的常年气温序列中第一个小于10 ℃的日期作为入冬初日,由图 1可见入冬日在2007年后略有提前,2007-2021年蜡梅初花期多数晚于入冬初期,相差不超过5 d,其中入冬初日最早出现日期为2019年11月30日,蜡梅初花期则为12月14日,入冬初日最晚出现日期为2007年12月28日,但是当年蜡梅初花期并未延后,接近平均初花期.

    对2007-2021年蜡梅花开花前期气温趋势图(图 2)分析发现,近16 a的时间段内,11月平均气温为13.9 ℃,11月中旬平均气温为14.0 ℃,11月下旬平均气温为12.0 ℃,其中下旬气温除2009年为9.8 ℃,2011年为16.6 ℃外,气温主要集中在10 ℃~14 ℃之间,其中花日序与11月下旬平均气温相关系数最高(0.444),这与前人研究结论基本一致[24],即蜡梅开花时的适宜温度在10 ℃左右,温度越低,花蕾比例越高,且随着温度的升高,花蕾开花数量随之增加. 由图 2可知,t≥10 ℃活动积温趋势与11月中旬平均气温趋势基本一致,t≥10 ℃活动积温主要集中在221 ℃~432 ℃之间,其中2015年积温最大,为431.2 ℃,其次是2011年,为379.1 ℃,最小值出现在2009年. 花日序与t≥10 ℃活动积温呈正相关性,相关系数为0.486,说明花期与t≥10 ℃活动积温的关系较为密切.

  • 本研究利用SPSS软件将表 1中的18个气象因子作为原始输入变量,以降维方式提取主成分,提取出的主成分是原始变量的综合考量,简化数据的复杂度. 采用PCA算法分别对18项影响因素进行特征值和特征向量计算,从表 2中可知,前6个主成分均大于1,累积贡献率为85.239%,对比旋转载荷平方和的结果,发现两者累计贡献率一致,基本上可以反映气象因子的大部分信息.

    表 3是2007-2021年气象因子主成分特征向量值,由表 3可知,在第1主成分的特征向量中,特征值大于0.8的因子是t≥10℃活动积温、11月中旬极端最低气温、11月中旬平均气温,说明第1主成分中初花期与11月中旬的气温有着紧密的相关性;在第2主成分的特征向量中,特征值绝对值大于0.8的因子是11月上旬日照、11月上旬极端最高气温、11月雨日,其中正值最大的是11月上旬日照(0.862),负值最小的是11月雨日(-0.862),说明第2主成分中初花期与光照和雨水关系较大;第3主成分的特征向量中,最大的正值是11月中旬日照,而最小的负值是11月下旬日照,说明在第3主成分中初花期主要受日照的影响;同理,第4主成分中初花期受11月上旬气温的影响较大,第5主成分中初花期受11月上旬降水和11月下旬最高气温的影响较大,第6主成分中初花期受11月中旬降水的影响较大. 根据主成分的特征向量,获得6个主成分与气象因子间的线性方程,即第1主成分(F1)为各气象因子与主成分系数的积相加的总和:

  • 以主成分分析法得到的影响蜡梅花初花期的6个主成分作为预测模型的影响因子,以蜡梅花初花期年日序为目标,构建BP网络神经预测模型,在建立BP神经网络预测模型过程中,基于Boosting集成学习思想,模型的拟合高达99%,其中预测值与实际值的相关性为0.99,通过了α=0.01的检验,标准差为0.171,均方根误差为0.17.

    以6个主成分作为自变量,蜡梅花初花期日序为因变量,利用SPSS软件,运用逐步回归算法建模,得到预报模型:

    从模型中可看出,主成分2是影响蜡梅花初花期的关键气象因子,结合表 3可知,11月上旬的光照、气温及雨水日数是影响初花期主要气象因子. 利用逐步回归预报模型对2007-2017年的初花期日序进行拟合,模型预测值与实际值的相关性为0.77,通过了α=0.01的检验,标准差为2.212,均方根误差为2.10.

    绘制模型预测值与实际值对比发现(图 3),BP模型预测值与实际值的趋势,除2008年外,其余年份的趋势基本重合,其中误差最大年份是2008年,误差为1 d;基于逐步回归算法的预测值与实测值的误差较BP神经网络的模型较大,平均误差有1.7 d,最小误差出现在2011年,与实测值基本一致;最大误差出现在2010年(5 d),其余年份与实测值基本相差1 d左右.

  • 将2018-2021的数据代入该模型进行进一步预测效果检验,绘制检验结果对比图(图 4),从图中可知,基于逐步回归算法的预测模型较基于BP神经网络算法的预测模型的误差较小. 基于BP神经网络算法的预测模型回代检验平均误差为3.3 d,其中2019年预测值与实测值误差最大(提前了5 d),误差值最小值出现2021年,与实测值基本一致,2018年和2020年均延后了4 d;基于逐步回归算法的预测模型的平均误差为2.1 d,误差值最大的年份同样出现在2019年,延后了3 d,误差值最小的年份出现在2021年,与实测值基本一致. 造成误差的原因是由于构建预报模型时出于预报时效性考虑,选择11月的气象要素作为主要因子,若蜡梅受前期气象要素的影响,导致生长期的变化,花期也易相应得到改变;同时若临近预测期的天气情况有较大的关系,若常年初花期前出现持续晴好天气或者阴雨天气,易提前或推迟花期. 因此在实际应用过程中,需根据蜡梅生育期情况,结合实际气候趋势,进行订正.

  • 对比2种建模方法发现(表 4),在2007-2017年训练集中,2种预测模型的效果都较好,其中基于BP神经网络算法的预测模型效果最好,其预测值的独立样本更接近实测值,标准差低于基于逐步回归算法的预测,线性相关性也较强.

    选取2018-2021年的有效数据作为检验样本,由表 4中可知,2种预测模型的预测效果较训练时有所下降,从检验样本来看,基于逐步回归算法的预测模型独立样本值,即最大值、最小值都较基于BP神经网络算法的预测值更接近实测值;从标准差和平均绝对误差来看,同样基于逐步回归算法的预测模型表现要优于另外一种预测模型. 同时从线性相关性来看,基于逐步回归算法的预测模型在建模和回代检验的过程中,线性相关性都较稳定,均在0.78左右. 总体来说,从预报检验结果来看,基于逐步回归算法的预测模型在检验过程中更优于基于BP神经网络算法的预测模型.

    绘制2007-2017年模型预报初花期日序箱线图(图 5a),从箱线上下边缘可见,基于BP神经网络算法的预测模型较基于逐步回归算法的模型更接近实测值;从箱体来看基于逐步回归算法的模型的预测值较为集中,箱体主要在343.3~345.6之间,中位数344;基于BP神经网络算法的模型的箱体则在343.2~346.1之间,中位数343;实测值的箱体则在343.25~346之间,中位数344. 综上所述,基于BP神经网络算法的模型较接近实测值.

    绘制2018-2021年模型预报初花期日序箱线图(图 5b),从图中可知,2018-2021年实测值整体较为集中,上边缘349,下边缘345,上四分位348,下四分位346,中位数347;基于BP神经网络算法的预测值的上边缘和上四分位基本接近,分别是349.34和349.19,下边缘342.54,下四分位343.19,中位数346.28;基于逐步回归算法的模型的上边缘348,下边缘341.85,上四分位347.59,下四分位343.52,中位数345.6;两个模型对比可见,基于逐步回归算法的预报模型较基于BP神经网络算法的模型的最大值与实测值基本一致,最小值基于BP神经网络算法更接近实测值,但从整个箱体来看,基于逐步回归算法的模型较BP神经网络算法更稳定.

  • 为探索蜡梅花早熟品种的初花期的预测,本研究基于PCA通过BP神经网络算法及逐步回归算法,构建了2007-2021年初花期预测模型,并对2种预测模型的预报效果进行对比检验,筛选最优预测模型. 结果表明,基于BP神经网络算法的预测模型在训练中的预报拟合率高达99%,与实测值的相关性超过了0.9,拟合度较高,在回代检验中拟合率低于训练时;基于逐步回归算法的预测模型在训练中与实测值误差大于基于BP神经网络算法,平均误差为1.7 d,在回代检验中效果明显优于基于BP神经网络算法,且线性相关性也较稳定;同时在回代模型中基于逐步回归算法的预测模型的独立样本值、标准差和平均绝对误差也同样优于基于BP神经网络算法的预测模型. 总体来说,基于逐步回归算法的预测模型更优于基于BP神经网络算法的预测模型.

    花期预测模型的基础就是预报因子的筛选,主成分分析法(PCA)是机器学习方法中对多指标综合分析方法,这种分析方法能够从多水平、多因素着手,综合分析各指标的整体效应,使筛选出的结果更具有科学性. 但是蜡梅花开花的生育期,不仅仅受气象要素的影响,还与田间管理、肥料、品种等多方面有着密切的关联,因此通过机器学习建立预测模型,还存在一定的偏差. 同时,本研究蜡梅花的生育期观测资料还较少,预测模型还有较大的不确定性,因此在后续研究中,需进行持续观测,收集更多的蜡梅花花期样本资料,不断地调试模型,提高预测精度.

参考文献 (25)

目录

/

返回文章
返回