留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

面向农业科研办公的垂直搜索引擎研究与设计

上一篇

下一篇

李昀, 邓颖, 吴华瑞. 面向农业科研办公的垂直搜索引擎研究与设计[J]. 西南师范大学学报(自然科学版), 2020, 45(9): 43-50. doi: 10.13718/j.cnki.xsxb.2020.09.008
引用本文: 李昀, 邓颖, 吴华瑞. 面向农业科研办公的垂直搜索引擎研究与设计[J]. 西南师范大学学报(自然科学版), 2020, 45(9): 43-50. doi: 10.13718/j.cnki.xsxb.2020.09.008
Yun LI, Ying DENG, Hua-rui WU. On Design of Vertical Search Engine toward Agricultural Scientific Research Office[J]. Journal of Southwest China Normal University(Natural Science Edition), 2020, 45(9): 43-50. doi: 10.13718/j.cnki.xsxb.2020.09.008
Citation: Yun LI, Ying DENG, Hua-rui WU. On Design of Vertical Search Engine toward Agricultural Scientific Research Office[J]. Journal of Southwest China Normal University(Natural Science Edition), 2020, 45(9): 43-50. doi: 10.13718/j.cnki.xsxb.2020.09.008

面向农业科研办公的垂直搜索引擎研究与设计

  • 基金项目: 2020年度农业农村部农业信息技术重点实验室建设项目(PT2020-03)
详细信息
    作者简介:

    李昀(1969-), 硕士, 高级工程师, 主要从事信息化管理应用研究 .

    通讯作者: 吴华瑞, 博士, 研究员
  • 中图分类号: S126

On Design of Vertical Search Engine toward Agricultural Scientific Research Office

  • 摘要: 在农业科研办公过程中, 科研人员进行信息检索的频率高, 信息需求精度高, 但传统的综合性搜索引擎检索农业实用技术、政策法规、专题数据等方向性比较强的农业信息, 通常返回结果数据量庞大、主旨范围宽泛, 导致内容不精准、搜索面太广, 筛选结果专业性不足;且现阶段主流的农业领域的垂直搜索引擎的搜索策略主要建立在传统的文本检索上, 在自身领域数据量有限的情况下, 搜索结果查全率不高, 且搜索结果没有排序依据(大多仅仅按信息发生时间为排序依据).本文对农业互联网信息搜索引擎进行了研究, 通过对各级农业管理部门网站、农业科研院所网站、农业新闻网站、农业商业网站等数据源的模块进行定位, 通过爬虫进行数据更新检测与定时抓取, 从数据源上有效减少不相关信息;基于数百个互联网数据源农业相关模块的信息抽取, 采用word2vec和本文提出的基于文本特征表达的doc2vec, 分别创建农业词向量、文档向量空间, 用来应对搜索关键词为无序词组和有序语句的搜索场景, 确保垂直搜索的智能和返回结果的准确.经过实验验证, 本文提出的doc2vec+tf-idf搜索算法能够在有序搜索中达到较高的准确率, 结合word2vec进行的无序搜索, 有针对地进行语义搜索, 可以进一步提高搜索引擎的查准率, 满足日益增长的对农业领域信息搜索的高效高质的需求.
  • 加载中
  • 图 1  农业科研互联网信息垂直搜索引擎框架设计

    图 2  DM模型

    图 3  DBOW模型

    图 4  3种模型在有序搜索内容条件下的相似度阈值与查准率关系

    图 5  3种模型在无序搜索内容条件下的相似度阈值与查准率关系

  • [1] 李广丽, 刘觉夫.垂直搜索引擎系统的研究与实现[J].情报杂志, 2009, 28(10): 144-147, 169. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbzz200910034
    [2] 肖冬梅.垂直搜索引擎研究[J].图书馆学研究, 2003(2): 87-89. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=tsgxyj200302030
    [3] 许翰林, 王瑞, 王佳丽, 等.基于Lucene的新闻垂直搜索引擎设计与实现[J].电脑编程技巧与维护, 2018(2): 50-52. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dnbcjqywh201802014
    [4] 彭玉容, 杨捧, 高媛.农业搜索引擎的发展现状及关键技术研究[J].安徽农业科学, 2010, 38(20): 10971-10972, 10977. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=ahnykx201020181
    [5] 王晓琴, 李书琴, 景旭, 等.基于Nutch的农业垂直搜索引擎研究[J].计算机工程与设计, 2014, 35(6): 2239-2243. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjgcysj201406069
    [6] 武婷婷.一种基于WebMagic和Mahout的信息搜集与推荐系统[J].软件导刊, 2016, 15(10): 1-3. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=rjdk201610001
    [7] 吕太之, 毕家钦.基于Hadoop平台的岗位分析和推荐系统的构建[J].河北软件职业技术学院学报, 2017, 19(4): 1-4. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=hbgcjszyxyxb201704002
    [8] 张婷婷, 刘凯, 王伟军.科研人员Web数据自动抓取模式及其开源解决方案[J].信息资源管理学报, 2015, 5(2): 21-27. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xxzyglxb201502003
    [9] 李佳欣, 潘伟. PhantomJS在Web自动化测试中的应用[J].计算机光盘软件与应用, 2013(18): 76-77, 80. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjgprjyyy201318058
    [10] 胡越, 张源伟, 雷军.自定规则的AJAX网页信息采集功能的设计[J].物联网技术, 2016, 6(9): 86-87. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=wlwjs201609034
    [11] 李浩.基于评论的博客搜索引擎的设计与实现[D].重庆: 重庆大学, 2016.http://cdmd.cnki.com.cn/Article/CDMD-10611-1016908413.htm
    [12] doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dqxxkx201402003 ZHU J, HU B, SHAO H. Research of Lightweight Vector Geographic Data Management Based on Main Memory Database Redis [J]. Journal of Geo-Information Science, 2014, 16(2): 165-172.
    [13] GAO X B, FANG X M. High-Performance Distributed Cache Architecture Based on Redis[M]//Lecture Notes in Electrical Engineering. Berlin, Heidelberg: Springer Berlin Heidelberg, 2013: 105-111.
    [14] ROEHM D, PAVEL R S, BARROS K, et al. Distributed Database Kriging for Adaptive Sampling (D2KAS) [J]. Computer Physics Communications, 2015, 192: 138-147. doi: 10.1016/j.cpc.2015.03.006
    [15] BALIS B, BUBAK M, HAREZLAK D, et al. Towards an Operational Database for Real-time Environmental Monitoring and Early Warning Systems [J]. Procedia Computer Science, 2017, 108: 2250-2259. doi: 10.1016/j.procs.2017.05.193
    [16] RIVEST R. The MD5 Message-Digest Algorithm[R]. RFC Editor, 1992.
    [17] SZYDLO M, YIN Y L. Collision-Resistant Usage of MD5 and SHA-1 via Message Preprocessing [J]. Topics in Cryptology - CT-RSA 2006, 2006: 99-114. DOI: 10. 1007/11605805_7.
    [18] HAVELIWALA T H. Topic-sensitive Pagerank: a Context-sensitive Ranking Algorithm for Web Search [J]. IEEE Transactions on Knowledge and Data Engineering, 2003, 15(4): 784-796. doi: 10.1109/TKDE.2003.1208999
    [19] doi: http://link.springer.com/article/10.1007%2FBF02985759 LANGVILLE A N, MEYER C D. Google's PageRank and Beyond [J]. Mathematical Intelligencer, 2011, 30(1): 68-69.
    [20] LORIGO L, KLEINBERG J, EATON R, et al. A Graph-Based Approach towards Discerning Inherent Structures in a Digital Library of Formal Mathematics [J]. Mathematical Knowledge Management, 2004: 220-235. DOI: 10. 1007/978-3-540-27818-4_16.
    [21] NOMURA S, OYAMA S, HAYAMIZU T, et al. Analysis and Improvement of HITS Algorithm for Detecting Web Communities [J]. Systems and Computers in Japan, 2004, 35(13): 32-42. doi: 10.1002/scj.10425
    [22] doi: https://tools.ietf.org/html/rfc1321 CHAKRABARTI S, DOM B E, GIBSON D, et al. Topic Distillation and Spectral Filtering [J]. Artificial Intelligence Review, 1999, 13(5-6): 409-435.
    [23] ARASU A, CHO J, GARCIA-MOLINA H, et al. Searching the Web [J]. ACM Transactions on Internet Technology (TOIT), 2001, 1(1): 2-43. doi: 10.1145/383034.383035
    [24] 吴莉霞.浅谈搜索引擎优化策略[J].电脑知识与技术, 2014, 10(15): 3662-3664. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dnzsyjs-itrzyksb201415072
    [25] 赵谦, 荆琪, 李爱萍, 等.一种基于语义与句法结构的短文本相似度计算方法[J].计算机工程与科学, 2018, 40(7): 1287-1294. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjgcykx201807021
    [26] 冯高磊, 高嵩峰.基于向量空间模型结合语义的文本相似度算法[J].现代电子技术, 2018, 41(11): 157-161. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xddzjs201811035
    [27] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient Estimation of Word Representations in Vector Space [EB/OL]. 2013: arXiv: 1301. 3781[cs. CL]. https://arxiv.org/abs/1301.3781.
    [28] 黄承慧, 印鉴, 侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报, 2011, 34(5): 856-864. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjxb201105009
    [29] 朱命冬, 徐立新, 申德荣, 等.面向不确定文本数据的余弦相似性查询方法[J].计算机科学与探索, 2018, 12(1): 49-64. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkxyts201801006
    [30] HINTON G E. Learning Distributed Representations of Concepts[C]//In Proceedings of the Eighth Annual Conference of the Cognitive Science Society, 1986, Amherst MA: Lawrence Erlbaum Associates, c1986: 1-12.
    [31] LE Q V, MIKOLOV T. Distributed Representations of Sentences and Documents [EB/OL]. 2014: arXiv: 1405. 4053[cs. CL]. https://arxiv.org/abs/1405.4053.
    [32] 覃光华, 丁晶, 陈彬兵.预防过拟合现象的人工神经网络训练策略及其应用[J].长江科学院院报, 2002, 19(3): 59-61. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=cjkxyyb200203017
    [33] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[C]// 19th International Conference on Neural Information Processing Systems, November 12-15, 2012, Doha, Qatar: Springer, c2012: 1097-1105.
    [34] KARDARAS D K, KAPERONIS S, BARBOUNAKI S, et al. An Approach to Modelling User Interests Using TF-IDF and Fuzzy Sets Qualitative Comparative Analysis [J]. Artificial Intelligence Applications and Innovations, 2018: 606-615. DOI: 10. 1007/978-3-319-92007-8_51.
    [35] DHAR A, DASH N S, ROY K. Application of TF-IDF Feature for Categorizing Documents of Online Bangla Web Text Corpus [J]. Intelligent Engineering Informatics, 2018: 51-59. DOI: 10. 1007/978-981-10-7566-7_6.
    [36] 凤元杰, 刘正春, 王坚毅.搜索引擎主要性能评价指标体系研究[J].情报学报, 2004(1): 63-68. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbxb200401012
  • 加载中
图( 5)
计量
  • 文章访问数:  3192
  • HTML全文浏览数:  3192
  • PDF下载数:  132
  • 施引文献:  0
出版历程
  • 收稿日期:  2020-08-07
  • 刊出日期:  2020-09-20

面向农业科研办公的垂直搜索引擎研究与设计

    通讯作者: 吴华瑞, 博士, 研究员
    作者简介: 李昀(1969-), 硕士, 高级工程师, 主要从事信息化管理应用研究
  • 1. 北京市农林科学院, 北京 100097
  • 2. 国家农业信息化工程技术研究中心, 北京 100097
  • 3. 北京市农业信息技术研究中心, 北京 100097
  • 4. 农业农村部农业信息技术重点实验室, 北京 100097
基金项目:  2020年度农业农村部农业信息技术重点实验室建设项目(PT2020-03)

摘要: 在农业科研办公过程中, 科研人员进行信息检索的频率高, 信息需求精度高, 但传统的综合性搜索引擎检索农业实用技术、政策法规、专题数据等方向性比较强的农业信息, 通常返回结果数据量庞大、主旨范围宽泛, 导致内容不精准、搜索面太广, 筛选结果专业性不足;且现阶段主流的农业领域的垂直搜索引擎的搜索策略主要建立在传统的文本检索上, 在自身领域数据量有限的情况下, 搜索结果查全率不高, 且搜索结果没有排序依据(大多仅仅按信息发生时间为排序依据).本文对农业互联网信息搜索引擎进行了研究, 通过对各级农业管理部门网站、农业科研院所网站、农业新闻网站、农业商业网站等数据源的模块进行定位, 通过爬虫进行数据更新检测与定时抓取, 从数据源上有效减少不相关信息;基于数百个互联网数据源农业相关模块的信息抽取, 采用word2vec和本文提出的基于文本特征表达的doc2vec, 分别创建农业词向量、文档向量空间, 用来应对搜索关键词为无序词组和有序语句的搜索场景, 确保垂直搜索的智能和返回结果的准确.经过实验验证, 本文提出的doc2vec+tf-idf搜索算法能够在有序搜索中达到较高的准确率, 结合word2vec进行的无序搜索, 有针对地进行语义搜索, 可以进一步提高搜索引擎的查准率, 满足日益增长的对农业领域信息搜索的高效高质的需求.

English Abstract

  • 伴随农业信息化的快速发展, 农业科研协同办公平台中, 用户对科研信息的需求量和信息准确度越来越高, 且变化的增幅越来越大.然而面对巨大的网络信息资源, 用户在信息搜索时会查出很多与目标信息无关的网页[1].同百度、谷歌等通用搜索引擎相比, 聚焦农业信息的垂直搜索引擎[2-3]能为农业科研工作者提供更专业性的搜索结果.国外的农业垂直搜索引擎已经取得了一定的成果[4], 如Agriscape Search, WEBAgriSearch等.我国的农业垂直搜索引擎出现相对较晚, 自2007年首个农业搜索引擎上线以来, 目前国内农业搜索引擎主要有农搜网、搜农网等, 仍然处在发展时期, 存在一些不完善的地方, 且尚无专注农业科研的搜索引擎.首先搜索结果中仍包含了大量的无效信息[5], 搜索准确率和用户满意度较低;其次搜索结果过于模式化, 搜索结果都按照规定的分类模块显示, 而忽略了搜索的关键词是否与预设的分类有关联;农业领域信息缺乏, 目前存在的几个主流农业搜索引擎关注点大多在农产品市场价格方面, 而如研究热点、重大成果、实用技术、政策法规、领域热点等相关的信息非常稀少.构建智能化的农业科研办公平台是推动农业科研现代化、信息化发展的重要手段.本文在传统的农业垂直搜索引擎基础上, 保证数据源的精确性, 结合语义关联分析查询机制, 提供对农业信息的精确及时的检索查询, 为农业科研办公的智能化、信息化提供有力技术支撑.在农业科研办公平台中, 小部分数据来自于科研单位办公过程产生的以及手动输入的, 主要数据来源于外部互联网数据接入和抓取, 在不考虑合作数据对接共享的情况下, 如何高效获取平台外的信息成为亟待解决的问题, 而垂直搜索引擎是解决这一问题的工具.

  • 现在传统的农业领域搜索引擎对数据来源定位不明确, 从质量不高的数据源中获取大量无效信息, 导致返回给用户的搜索结果包含很多干扰信息, 用户不得不自行对结果的有效性进行二次判断.

    面向农业科研办公的垂直搜索引擎由数据收集模块(数据资源池、爬虫模块, 信息源数据监测模块), 智能搜索模块(语义分析、智能分类、信息转发模块)组成, 以实现数据粗采-筛选-精确搜索的一体化过程(图 1).

  • 采用WebMagic+Phantom JS+Redis的网页数据抓取框架, 对数据源资料库中的网站模块进行更新监测和信息抓取.

    本系统采用WebMagic爬虫框架[6-8]完成信息获取的基本工作, 通过内置的定时任务执行器对录入的指定网站进行广度优先的网页数据遍历.同时, 结合Phantom JS[9-11]的网页动态渲染技术, 获取html页面行和经过JavaScript渲染的数据源信息, 通过Redis[12-15]缓存框架对爬虫获取的数据进行缓存计算, 在缓存中对新获取数据的网页地址、正文标题及内容的MD5[16-17]加密值与数据库中数据相同项的MD5加密结果进行查重比较, 仅将url不重复且MD5对比结果不同的数据新增存入数据库, 将url重复但MD5结果不同的数据进行更新.开发可视化数据配置界面, 对数据获取需要的各个配置项进行定义, 并提供实时检测功能, 对正在配置的数据源进行实时检测, 及时发现配置上的问题.

    系统集成了大量全面且定向精准的数据源:农业农村部、省厅级农业管理部门、农业科研单位、院校的官方网站、综合性及农业专业性资讯网站.同时对数据源网站进行了面向网站子模块的筛选:人工遍历以上数据源的各个子板块直至底层板块(定义详情页的上一级菜单为底层板块), 通过以往人工采集数据的经验指定包含农业领域相关内容多、更新速度快的底层板块, 对其更新内容进行监测和爬取.通过对数据源全面核对以及严格把关, 确保了系统抓取数据的全面性和精确性, 获取的数据丰富而不冗余.

    对本地化的数据实时监控, 可视化各个数据源的数据更新情况及有效数据量, 帮助及时发现网站改版、地址变更等异常, 提醒对相应数据源的重新配置, 辅助系统维护, 对保持系统的数据质量起到监督预警的作用.

  • 当前大多数的农业信息搜索引擎的检索方法都是进行基于全文检索的关键词模糊查询, 搜索过程相对简单, 但是所得到的结果只有包含搜索的关键词的信息, 相关度仅仅是根据词频来判断, 并且无法判断词之间的先后顺序、间隔距离等条件, 这样的结果往往不全面且信息相关度不准确.

    本系统的智能搜索模块按功能分为搜索和转发两大子模块.本系统将神经网络应用到了搜索功能中, 通过计算语义相似度的方式匹配搜索结果, 增加返回信息语义范围的同时按照相关度进行排序, 使用户能更容易获得与之查询内容接近的信息内容;在搜索结果界面提供信息发布功能, 通过调用各个农业信息服务云平台的RESTful Api, 具有信息发布权限的用户可以将对应的信息发布至各个平台的对应分类目标板块中去, 从精准度和方便程度上提高了用户的使用体验.

  • 传统的搜索引擎主要使用关键字匹配, 利用全文检索技术对爬虫数据建立索引, 并对索引进行关键词的模糊查询, 然后根据PageRank[18-19], Hyperlink-Induced Topic Search(HITS)[20-23]等面向链接的算法对查询结果进行排序[24].不同于水平搜索引擎的全领域信息搜索, 在农业科研信息垂直搜索引擎中, 被检索数据范围比水平搜索引擎少, 且对返回结果的精确度要求高, 使用面向链接的算法进行搜索会返回很多广告、站点导航等无效页面信息, 对搜索结果产生干扰.本文提出采用基于语义相似度[25-26]的搜索策略, 抛开网页之间的链接关系, 只考虑搜索内容和返回结果之间的语义关联程度.

    本策略将搜索分为语义搜索和非语义搜索2类.非语义搜索即搜索内容仅由不含语义的单词或者词组组成, 如“我”“和”“并且”等, 这些词汇在停用词列表中, 在文本分词时已经从语料中去除;如果用户特意搜索此类单词, 本文将使用传统的全文检索模糊查询方法, 直接从数据库中进行匹配.包含停用词表之外单词的搜索内容定义为语义搜索, 该类搜索采用语义相似度搜索法进行匹配.

    越专业的领域, 其专业词汇量越是有限, 而专业词汇对语义影响的权重值越高, 在进行语义分析工作之前, 从农业领域中总结出其专业词汇形成高优先级词典, 在分次和关键词提取时, 高优先级词典中的单词凭借其具有的高权值会优先被分词算法提取出来.

    然后是将采集的大量农业科研互联网数据文档通过pyhanlp进行分词、去停用词处理, 形成清洁可用的训练语料库.通过word2vec模型对语料库进行词向量空间构建, 形成词向量模型.

    (1) 语义分析模型

    word2vec是Mikolov等提出的语言模型[27], 通过CBOW模型和Skip-gram模型实现对语料库中所有单词的词向量[28]的计算与表示.

    在搜索过程中, 被检索语句ω中的每个词ωi都可以用训练好的word2vec模型计算表示出其在空间S中的向量坐标:

    其中n为空间维度, vin为单词ωi在空间S中各个维度上的权值, 则文档中所有词的向量求均值可以用来表示该文档在的向量空间中的坐标:

    其中k为文档d分词结果中单词个数.以此为依据计算文档向量S(d)与搜索内容t在空间S中的向量表示S(t)的余弦相似度[29-30], 即为所求的搜索排序依据:

    其中ti表示单词t在向量空间中第i个维度的权值, vij(j=1, 2, …, n)为文档中第i个单词在向量空间中第j个维度上的权值.从公式可知, 如此表示文档向量仅考虑了文档中单词以及他们的词频, 并没有将词语排列顺序、前后间隔距离等因素考虑在内.因此本文针对有序查询语句, 采用Doc2vec模型进行语义相似度的计算. Mikolov在2014年提出了doc2vec, 对自己先前提出的Word2vec进行了改进[31].

    doc2Vec同样具有2种模型, 分别为:Distributed-Memory(DM模型)和Distributed-Bag-of-Words(DBOW模型).如图 2, DM模型跟Word2vec的CBOW(Continuous Bag-of-Word Model)相似, 在已知上下文和文档向量时, 计算目标词出现的概率, DBOW模型则是跟Word2vec的Skip-gram相似, 已知文档向量时, 计算文档中出现随机词组的概率.

    与word2vec类似, 通过doc2vec模型计算出各个文档的空间向量, 与搜索语句的空间向量直接进行余弦值计算就可以得出对应的语义相似度.不同的是, 这样的计算结果受文档中词语先后顺序, 词与词间隔的远近等因素影响.而doc2vec相对于word2vec, 在模型的输入层增加了段落向量(Paragraph vector), 它类似于词向量, 用于表示一个段落的向量空间特征, CBOW模型中的训练过程中, 每次仅截取文本中的一部分词进行训练, 但是忽略了上下文中的其他词, 如此训练出的句子的空间向量, 只是文本中各个词的向量均值, 忽略了词序问题.虽然doc2vec的训练也是通过固定滑窗大小截取上下文的一部分词来训练, 但是他在同一个段落的滑窗移动的过程中共享段落向量, 即一段文本通过滑动滑窗会进行若干次训练, 但每次训练输入的Paragraph vector也不会因训练词组的改变而改变.这样段落向量更能表达这段文本的主旨, 也更能满足面向农业科研办公的互联网信息垂直搜索引擎对其理解能力、智能程度的需求.

    (2)基于TF-IDF的算法改进

    虽然word2vec和doc2vec模型都通过对文档全文分词后的词组进行计算, 但是在文档长度较大, 包含单词数量较多的情况下, 文档的特征比单独的词更复杂, 因此文档向量模型的训练所需训练文本数量大, 在训练样本数量不够充足的情况下会出现文档向量模型表达不准确的问题, 并且训练所需的计算量也高于词向量模型.现在从事农业领域自然语言研究的人员有限, 几乎没有相关的开源数据样本, 在纯人工收集的前提下, 样本数量的增大将会造成前期样本收集的时间成本增高, 对研究实验和生产应用都造成极大的阻碍, 并且对全文进行向量空间表达, 尤其是长文本的表达时, 由于其单词数过多, 文本特征数就有可能越多, 在这种情况下, 即使训练样本充足, 对模型进行训练时也容易产生过拟合现象[32].类似卷积神经网络[33], 在每次卷积计算之后通常会连接一次池化计算, 通过局部特征的提取进行降维, 不但减少模型训练和计算的复杂度, 也降低了模型的过拟合程度.本文提出在农业互联网信息垂直搜索引擎检索模块中通过文本的特征提取, 即通过tf-idf计算得出文档的关键词, 仅用关键词组成的语料来训练doc2vec向量模型, 在减少文档中参与语义相关度计算的单词量的同时又尽量不影响被检索文档的语义, 以此实现在训练样本数量受限的情况下, 增加模型的可靠性.

    TF-IDF是计算单词对于其所在文本重要程度的一种统计方法[34-35]. TF表示词频(Term-Frequency), IDF表示逆文本频率(Inverse-Document-Frequency). TF是词条(t)在任意文档(d)中出现的频率. IDF则是反应t在整个语料库中被包含的文档数n, nIDF呈反比.

    通过计算每个文档中各个单词的TF-IDF值并排序选出文档重要度最高的k个词作为保留词, 去掉其他词语, 并对由保留词构成的文档进行训练文档向量模型训练得到各个文档的空间向量表示结果.最后通过计算搜索内容和被检索文本的向量余弦相似度作为语义相似度判断依据, 并筛选删除相似度低于设定阈值的结果, 然后相似度从大到小的顺序对被检索文档进行排序作为查询结果发送给用户.

  • 查全率和查准率是评价搜索引擎性能的主要考核标准[36], 模型运算速度和模型训练速度则是作为模型优化程度的重要评价因素.查全率(recall)又称作召回率, 是衡量搜索引擎返回结果与用户查询内容相关度的能力, 如公式(6);查准率(precision)即为精度, 用于衡量搜索引擎去除不相关搜索结果能力, 如公式(7).

    式中R表示搜索结果的信息数量, C表示搜索结果中相关信息的数量, T表示整个文档中的相关信息数(搜索出和未搜索出的相关信息的总和).

    precision和recall互相影响, 若precision高但recall低, 查到的信息总量就少, 反之, 查到的有用信息所返回的信息基数就高, 对用户产生的干扰也就越强.因此, 存在一种新的评估指标, F1测试值:

    由于垂直搜索引擎数据来自互联网爬虫工具, 信息量巨大, 无法统计互联网当中相关信息的具体数量, 因此将查准率作为评价搜索引擎的重要指标.

  • 搭建信息爬虫系统, 以24个高校网站、49个科研机构网站、33个农业管理部门官方网站、23个媒体网站、225个农业商业网站、农业信息网站为数据源, 抓取近10万条近期数据, 人工定义500词的农业领域专业词典, 从总样本中筛选出38 749条与词典内单词相关的数据共63 M.标记10个单词, 10个无序三元词组以及10个完整句(分词后5个有序单词以上)的相关文档.

    本实验在Intel i5-4590 CPU, 16GB内存主机上进行.在Python 3.5.4环境下, 安装MySQLdb, PyMySQL进行数据库操作, 安装pyhanlp, jpypel等工具进行分词和词向量处理.

    实验步骤如下:

    1)  连接mysql数据库, 提取人工筛选出的语料样本;

    2)  通过pyhanlp中的crf分词算法, 在基础自然语言词典的基础上, 引入农业词典库, 对38 749条语料数据进行逐条分句、分词;

    3)  采用pyhanlp自带停用词库进行停用词过滤并存入txt文档;

    4)  人工检查过滤后生成的文档, 对未过滤而应当停用的单词进行记录并添加至停用词列表;

    5)  用更新后的停用词文档再次进行过滤, 并通过tf-idf算法进行关键词提取, 提取个数为全文词数的8%;

    6)  通过pyhanlp集成的word2vec训练生成词空间向量模型;

    7)  用生成的word2vec模型训练doc2vec模型(记录计算时间);

    8)  文档向量表示:

    ①  用word2vec模型表示每条数据中每个分词的词向量, 并求平均值;

    ②  用doc2vec模型表示每条数据全文分词的文档向量;

    ③  用doc2vec模型表示每条数据关键词组的文档向量;

    9)  相似度计算:用人工标记所用的50组无序单词/词组以及50个有序整句与步骤8中产生的a~c3种向量模型文档向量进行相似度计算, 统计并计算相似度阈值取0.1~1时, 关键词个数8%时的搜索结果的查准率.

  • 实验影响因子有:8-①, 8-②, 8-③ 3种向量模型生成方法、搜索语句有/无序状、相似度筛选阈值.

    图 4可以看出, 在搜索内容为有序整句的时候, 3种文档模型的查准率在阈值增加的过程中多呈现先快速增后缓慢减少的趋势.其中word2vec模型增加幅度最大, 在相似度阈值为0.4的时候打到最大查准率;doc2vec模型增幅最小, 在相似度阈值为0.6的时候达到峰值, 其峰值与word2vec模型的峰值相比略高, 但是几乎持平;doc2vec与tf-idf关键词提取相结合的文本向量模型增幅居中, 在相似度阈值0.5时达到峰值, 其峰值高于另外2个文本向量模型.可以判断本文提出的方法在整句搜索时, 有效文本相似度筛选阈值取值0.5时达到最高性能, 即表明其在数量有限的农业语料库优先中表现最为优异, 另外doc2vec模型在收到训练样本数量限制的情况下性能受到较大的负影响.

    图 5可知, 3种模型的查准率在有序和无序搜索时均呈现先增后减的趋势, 无序搜索3种模型的查准率随相似度阈值变化的幅度更为平缓, 且均在阈值接近0.5时达到峰值, 峰值情况下, 各向量模型的查准率从大到小依次为word2vec, doc2vec+tf-idf, doc2vec.本文提出的doc2vec+tf-idf方法在相似度阈值大于0.65时, 具有更高的查准率, 但word2vec模型的查准率峰值更高.

    以农业科研领域的文本数据作为语料, 采用领域内的自定义分词词典和停用词表, 使用本文提出的doc2vec与tf-idf提取关键词结合的文本向量模型, 通过有序文本搜索时查准率更高;而基于word2vec均值的文本向量模型在对无序词组进行搜索时有更好的表现.针对不同的搜索场景动态选取对应的高性能搜索方法将进一步提高搜索引擎的性能.

  • 本文通过人工精确定位数据源、爬虫系统自动抓取海量农业信息互联网信息, 通过doc2vec与tf-idf结合的神经网络算法进行语义相似度匹配搜索.实验结果, 证明本方法在有序文本搜索时具有较高的准确性, 但word2vec在无序离散的词汇组合搜索时则有更高的查准率.因此, 针对不同的文本搜索场景选用不同的搜索方法将进一步提高农业科研协同办公平台信息搜索引擎的性能.在下一步的研究工作中, 将对用户搜索内容的有序和无序分类进行判断, 以决策针对性的搜索方法, 达到更高的准确率;对文本进行预分类, 同时判断用户搜索内容的类型, 在同一分类下进行搜索, 通过缩小搜索范围, 降低搜索运算的时间、提升搜索效率.

参考文献 (36)

目录

/

返回文章
返回