基于特征增强的多方位农业问句语义匹配

王奥; 吴华瑞; 朱华吉

doi:10.13718/j.cnki.xdzk.2023.06.020

基于特征增强的多方位农业问句语义匹配

1.
广西大学计算机与电子信息学院，南宁 530004

2.
北京市农林科学院信息技术研究中心，北京 100097

3.
国家农业信息化工程技术研究中心，北京 100097

4.
农业农村部数字乡村技术重点实验室，北京 100097

基金项目: 科技创新2030——“新一代人工智能”重大项目(2021ZD0113605)；国家重点研发计划项目(2019YFD1101105，2020YFD1100602)

详细信息

作者简介:
王奥，硕士研究生，主要从事农业智能问答研究 .

通信作者: 朱华吉，博士，研究员

中图分类号: TP391.1

Multi-Level Semantic Matching of Agricultural Questions Based on Feature Enhancement

1.
School of Computer, Electronics and Information, Guangxi University, Nanning 530004, China

2.
Information Technology Research Center, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China

3.
National Engineering Research Center for Information Technology in Agriculture, Beijing 100097, China

4.
Key Laboratory of Digital Village Technology, Ministry of Agriculture and Rural Affairs, Beijing 100097, China

摘要: 农业问句文本数据具有专业名词多、特征稀疏、语句规范性差等特征，难以深入挖掘句间交互关系. 为改善农业相似问句的匹配性能，提出一种基于特征增强的多方位农业问句语义匹配模型. 模型通过共享参数的双向长短期记忆网络提取上下文向量，分别引入自注意力机制、多维注意力机制增强农业问句文本语义推断特征和文本距离特征，通过多特征增强聚焦语义特征信息，将增强特征嵌入到多方位匹配函数中，从向量值、方向和元素等角度进行句间相似度对比，以捕获句子多样性特征. 从农业问答社区导出农业问答文本数据，人工标注相似问句构建试验数据集. 试验结果表明：基于特征增强的多方位农业问句语义匹配模型可以增强文本特征之间的交互，获取更多的关系特征信息，在构建的农业问句数据集上正确率及F1值达95.3%和97.3%，与其他5种问句语义匹配模型相比，效果提升明显.
- 农业问句语义匹配 /
- 特征增强 /
- 自然语言处理 /
- 双向长短期记忆网络 /
- 自注意力机制
Abstract: To improve the performance of similarity calculation in agricultural Q & A community, according to the characteristics of agricultural question which are many professional nouns, sparse and poor sentence standardization, a semantic matching model of agricultural question sentences based on features enhancement was proposed. The model extracts context vectors through a bidirectional long-short term memory network that shares parameters. The self-attention mechanism and multi-dimensional attention mechanism are used to enhance the semantic inference features and distance features of agricultural question text data, respectively. Through multi-feature enhancement, the semantic feature information is focused, the enhanced features are embedded in the multi-directional matching function, and the similarity is compared from the perspectives of vector value, direction and element to capture the diversity characteristics of sentences. Agricultural Q & A text data is exported from the agricultural Q & A community, and similar questions are manually labelled to construct experimental datasets. The experimental results showed that the agricultural question semantic matching model based on enhanced multi-feature can enhance the interaction between text features, get more relationship feature information. The accuracy and F1 values of the proposed model were 95.3% and 97.3%. Compared with the other five semantic matching models, the experimental results showed obvious advantages.
- agricultural question semantic matching /
- feature enhancement /
- natural language processing /
- bi-long-short term memory network /
- self-attention .

图 1 特征增强语义匹配模型架构图

下载: 全尺寸图片幻灯片

图 2 文本距离特征增强

下载: 全尺寸图片幻灯片

图 3 注意权重可视化图

下载: 全尺寸图片幻灯片

图 4 不同模型在农业问句数据集不同类别的准确率

下载: 全尺寸图片幻灯片

表 1 训练集样本示例

问句1	问句2	标签	类别
小青菜霜霉病病菌产生卵孢子的适宜温湿度是多少?	小青菜霜霉病病菌什么时候产生卵孢子?	0	病虫草害
大豆高产栽培技术是什么?	请问咋进行大豆高产栽培?	1	栽培管理
如何防治豆角炭疽病?	豆角炭疽病的发病条件是?	0	病虫草害
如何搞好莴笋病虫害防治?	怎么才能种植好莴笋?	0	栽培管理
玉米生长期需要施什么肥?	玉米生长期什么样的肥料好	1	土壤肥料
羊低镁血病的症状是什么?	羊低镁血病预防措施是什么?	0	动物疫病
水稻的田间管理技术要点有哪些?	如何进行水稻的田间管理?	1	栽培管理
肉牛养殖管理要点是啥?	肉牛夏季养殖如何防暑	0	养殖管理

下载: 导出CSV

表 2 K值对模型性能的影响 %

k值	0	1	2	3	4	5	6
农业文本	94.1	94.3	94.5	95.3	94.3	94.0	93.8
lcqmc	91.1	91.4	91.6	91.9	91.7	91.5	90.7

下载: 导出CSV

表 3 消融试验 %

序号	模型	正确率	精确率	召回率	F1值
1	本文模型	95.3	97.1	97.5	97.3
2	删除距离增强	93.8	95.7	97.1	96.4
3	删除推断增强	93.6	96.9	95.1	96.2
4	删除多方位匹配	94.6	97.0	96.7	96.8
5	删除距离增强和推断增强	90.1	89.6	89.1	89.3
6	Siamese-BILSTM	88.1	87.3	88.2	87.7

下载: 导出CSV

表 4 部分预测结果

问句1	问句2	标签	预测
大棚茄子6月管理技术要点有哪些?	6月份温室茄子的管理要点是什么?	1	1
大豆带状种植要点?	大豆高产栽培要点?	0	0
番茄晚疫病有什么症状?	如何防治番茄晚疫病?	0	0
肉牛养殖管理要点是啥?	肉牛夏季养殖如何防暑	1	1

下载: 导出CSV

表 5 不同模型对比结果 %

试验模型	正确率	精确率	召回率	F1值
ESIM	91.7	91.1	93.8	92.5
DIIN	89.3	88.7	89.4	89.1
TextCNN	82.2	76.1	88.6	81.9
BIMPM	88.7	89.1	88.6	88.8
ABCNN	87.1	87.4	86.7	87.0
本文模型	95.3	97.1	97.4	97.3

下载: 导出CSV

[1]	FENGSHI, JING. Knowledge-Enhanced Attentive Learning for Answer Selection in Community Question Answering Systems [J]. Knowledge-Based Systems, 2022, 250: 109117. doi: 10.1016/j.knosys.2022.109117
[2]	马满福, 刘元喆, 李勇, 等. 基于LCN的医疗知识问答模型[J]. 西南大学学报(自然科学版), 2020, 42(10): 25-36. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xdzk.2020.10.004
[3]	施志刚. 基于改进协同表示的二级分类人脸识别方法[J]. 西南大学学报(自然科学版), 2017, 39(1): 172-178. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xdzk.2017.01.026
[4]	LIU Y, TANG A H, SUN Z B, et al. An Integrated Retrieval Framework for Similar Questions: Word-Semantic Embedded Label Clustering-LDA with Question Life Cycle [J]. Information Sciences, 2020, 537: 227-245. doi: 10.1016/j.ins.2020.05.014
[5]	王寒茹, 张仰森. 文本相似度计算研究进展综述[J]. 北京信息科技大学学报(自然科学版), 2019, 34(1): 68-74. doi: 10.16508/j.cnki.11-5866/n.2019.01.013
[6]	WANG M, SMITH N A, TERUKO M. What is the Jeopardy Model? A Quasi-Synchronous Grammar for QA [C] //Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic: Association for Computational Linguistics Press, 2007: 22-32.
[7]	KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A Convolutional Neural Network for Modelling Sentences [EB/OL]. 2014: arXiv: 1404. 2188. https://arxiv.org/abs/1404.2188.
[8]	GREFF K, SRIVASTAVA R K, KOUTNIK J, et al. LSTM: a Search Space Odyssey [J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(10): 2222-2232. doi: 10.1109/TNNLS.2016.2582924
[9]	卜伟琼, 方逵, 陈益能. 农业知识问答系统句子相似度算法研究[J]. 农业网络信息, 2012(10): 17-20. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSJN201210006.htm
[10]	MUELLER J, THYAGARAJAN A, Siamese Recurrent Architecture for Learning Sentence Similarity [C] //Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix Arizona, USA: AAAI Press, 2016: 2786-2792.
[11]	刘志超, 王晓敏, 吴华瑞, 等. 基于BiLSTM-CNN的水稻问句相似度匹配方法研究[J]. 中国农机化学报, 2022, 43(12): 125-132. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-GLJH202212019.htm
[12]	金宁, 赵春江, 吴华瑞, 等. 基于多语义特征的农业短文本匹配技术[J]. 农业机械学报, 2022, 53(5): 325-331. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-NYJX202205034.htm
[13]	VASWANI A, SHAZZER N, PARMAR N, et al. Attention is All You Need [C] //Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, USA: Curran Associates Inc Press, 2017: 6000-6010.
[14]	TAN C Q, WEI F R, WANG W H, et al. Multiway Attention Networks for Modelling Sentence Paris [C] //Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm Sweden: AAAI Press, 2018: 4411-4417.
[15]	KIM S, KANG I, KWAK N. Semantic Sentence Matching with Densely-Connected Recurrent and Co-Attentive Information [J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 6586-6593.
[16]	LU W P, ZHANG X, LU H M, et al. Deep Hierarchical Encoding Model for Sentence Semantic Matching [J]. Journal of Visual Communication and Image Representation, 2020, 71: 102794.
[17]	王郝日钦, 王晓敏, 缪祎晟, 等. 基于BERT-Attention-DenseBiGRU的农业问答社区问句相似度匹配[J]. 农业机械学报, 2022, 53(1): 244-252. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-NYJX202201027.htm
[18]	于碧辉, 王加存. 孪生网络中文语义匹配方法的研究[J]. 小型微型计算机系统, 2021, 42(2): 231-234. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XXWX202102002.htm
[19]	冯月春, 陈惠娟. 改进Bi-LSTM的文本相似度计算方法[J]. 计算机工程与设计, 2022, 43(5): 1397-1403. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-SJSJ202205026.htm
[20]	石彩霞, 李书琴, 刘斌. 多重检验加权融合的短文本相似度计算方法[J]. 计算机工程, 2021, 47(2): 95-102. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC202102014.htm
[21]	刘继明, 于敏敏, 袁野. 基于句向量的文本相似度计算方法[J]. 科学技术与工程, 2020, 20(17): 6950-6955. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS202017036.htm
[22]	CHEN Q, ZHU X, LING Z, et al. Enhanced LSTM for Natural Language Inference [EB/OL]. (2017-04-26) [2023-02-27]. 2016: arXiv: 1609. 06038. https://arxiv.org/abs/1609.06038.
[23]	GONG Y, LUO H, ZHANG J. Natural Language Inference over Interaction Space [EB/OL]. (2017-09-13) [2023-02-07]. 2017: arXiv: 1709. 04348. https://arxiv.org/abs/1709.04348.
[24]	YIN W P, SCHVTZE H, XIANG B, et al. ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs [J]. Transactions of the Association for Computational Linguistics, 2016, 4: 259-272.
[25]	WANG Z G, HAMZA W, FLORIAN R. Bilateral Multi-Perspective Matching for Natural Language Sentences [C] //Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence. August 19-26, 2017. Melbourne, Australia. California: International Joint Conferences on Artificial Intelligence Organization, 2017: 4144-4150.
[26]	ZHANG Y, WALLACE B. A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification [C] //Proceedings of the Eighth International Joint Conference on Natural Language Processing. Taiwan, China: Asian Federation of Natural Language Processing, 2016: 253-263.

图( 4) 表( 5)

计量

文章访问数: 5301
HTML全文浏览数: 5301
PDF下载数: 224
施引文献: 0

全文HTML

开放科学(资源服务)标志码(OSID):
农业复杂交互式问答平台为农户提供专家在线指导、在线学习、农业技术交流多种功能^[1-2]，在协助用户解决农业生产生活和日常信息需求中发挥着重要作用. 平台农户和专家实时在线互动，问答文本海量增长，但经常出现不同表达方式表达相同语义的情况，相似问题解答消耗大量人力、物力，因此构建能够快速准确给出答案的问答系统就显得十分必要. 相似度匹配是语音、人脸识别^[3]、问答等系统的基础任务，其相似度计算的精度直接影响问答系统回复的准确率，利用问句相似度匹配^[4]开展高精度的农业智能问答模型研究，是农业智能化的重要发展方向.

以往的语义匹配研究集中在短语、语法和词汇匹配，如文献[5]提出一种语法驱动的文本匹配方法，通过融合具有鲁棒性的非词汇语法和由对数驱动的词汇语法的线性模型进行文本匹配. 随着深度学习的蓬勃发展^[6-8]，语义匹配从基础的文本嵌入到相似度计算，再到复杂的神经网络，有效解决了人工设计特征提取量少、泛化性差的问题. 卜维琼等^[9]针对农业领域特征，提出一种多重信息融合的相似度算法，首次将深度学习与农业问句匹配结合. 孪生神经网络在文本匹配领域表现出良好的性能^[10]. 刘志超等^[11]采用孪生神经网络架构，结合双向长短期神经网络和卷积神经网络进行水稻问句语义匹配. 这种网络结构减少训练模型参数，提高了训练效率. 金宁等^[12]采用孪生神经网络结构，运用双向长短期记忆网络、卷积神经网络和密集连接网络从深度语义、词语共现、最大匹配度3个层面实现农业短文本匹配，但是直接进行句子表示的相似度匹配，忽略了句间交互，导致交互特征信息的损失，无法有效学习句子关系特征.

注意力机制^[13]可有效解决上述问题，利用注意力机制对特征信息进行聚合或增强匹配信息，挖掘丰富的句子关联信息^[14-16]. 融入注意力机制的交互模型通过赋予词不同的权重，能快速获得有效信息，有效提升文本匹配模型性能，文献[17]针对农业文本特征，利用基于协同注意力机制的紧密连接BiGRU(双向门控循环单元)实现农业问句相似度匹配. 在注意力机制基础上从字、词、句的角度研究文本相似度计算^[18-21]，细粒度对比句子差异能够提高相似度计算的效率和准确率. 但农业文本数据存在词汇总量较少、专有名词多，具有冗余性、稀疏性、规范性差等特点，导致传统语义匹配方法提取句子间关联特征信息不够充分，忽略了句间推理关系. 如何实现农业相似问句语义智能检索仍是农业问答需要解决的一个重要问题.

针对农业文本句子关联特征信息难以深入挖掘，句子多样性捕获不足等问题，构建双向长短期循环神经网络提取特征，融合自注意力机制、多维注意力机制增强的文本语义推断特征和距离特征，通过多特征增强聚焦语义特征，将增强特征嵌入多方位匹配层，多角度对比句子特征信息，捕获句子的多样性，以期实现农业问句精准、自动的语义匹配.

3. 结语

为提高农户和农技工作者对农业问题检索的效率，减轻农业专家回复相似问题的压力及人工回复的延时性，构建了包含5个类别的农业问句语料库，提出一种基于多特征增强的农业问句语义匹配模型，在特征增强层增强语义推断特征和文本距离特征，深层次挖掘出农业文本交互特征信息，进一步获取丰富的文本间关联特征信息，由多方位匹配获取更丰富的聚合信息和句子关系. 试验证明，在构建的农业问句数据集上较其他模型对语义匹配的计算性能有进一步提升，实现农业问句快速自动检测，有效提高农业智能问答中海量问句匹配效率和问答结果的准确率，进一步发挥智能问答在农技推广领域中的作用. 由于农业具有地域性，在未来的工作中可考虑开展对方言问句和非规范的口语化问句语义匹配的相关研究.

参考文献 (26)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于特征增强的多方位农业问句语义匹配

1.
广西大学计算机与电子信息学院，南宁 530004

2.
北京市农林科学院信息技术研究中心，北京 100097

3.
国家农业信息化工程技术研究中心，北京 100097

4.
农业农村部数字乡村技术重点实验室，北京 100097

作者简介:
王奥，硕士研究生，主要从事农业智能问答研究 .

通信作者: 朱华吉，博士，研究员

Multi-Level Semantic Matching of Agricultural Questions Based on Feature Enhancement

计量

基于特征增强的多方位农业问句语义匹配

通信作者: 朱华吉，博士，研究员

English Abstract

Multi-Level Semantic Matching of Agricultural Questions Based on Feature Enhancement

Corresponding author: ZHU Huaji

全文HTML

1.1. 特征增强层

1.1.1. 语义推断特征增强

1.1.2. 文本距离特征增强

1.2. 多方位匹配

2.1. 试验数据

2.2. 试验结果与分析

目录

留言板

基于特征增强的多方位农业问句语义匹配

1. 广西大学 计算机与电子信息学院，南宁 530004 2. 北京市农林科学院 信息技术研究中心，北京 100097 3. 国家农业信息化工程技术研究中心，北京 100097 4. 农业农村部 数字乡村技术重点实验室，北京 100097

作者简介: 王奥，硕士研究生，主要从事农业智能问答研究 .

通信作者: 朱华吉，博士，研究员

Multi-Level Semantic Matching of Agricultural Questions Based on Feature Enhancement

计量

出版历程

基于特征增强的多方位农业问句语义匹配

通信作者: 朱华吉，博士，研究员

English Abstract

Multi-Level Semantic Matching of Agricultural Questions Based on Feature Enhancement

Corresponding author: ZHU Huaji

全文HTML

1.1. 特征增强层

1.1.1. 语义推断特征增强

1.1.2. 文本距离特征增强

1.2. 多方位匹配

2.1. 试验数据

2.2. 试验结果与分析

目录

1.
广西大学计算机与电子信息学院，南宁 530004

2.
北京市农林科学院信息技术研究中心，北京 100097

3.
国家农业信息化工程技术研究中心，北京 100097

4.
农业农村部数字乡村技术重点实验室，北京 100097

作者简介:
王奥，硕士研究生，主要从事农业智能问答研究 .