-
作为国家发展的重要产业之一,畜牧业一直以来受到国家和地方政府的资金扶持. 2020年,国务院相关政策提出畜牧业是关系国家经济和人民生活的重要产业,对保障国家的食物安全、促进农村经济发展和提高农民收入等方面具有重要的作用[1]. 2020年,农业农村部印发的通知中包含了加快生猪生产的恢复发展、加强动物疾病防控能力等畜牧业工作要点主要目标,也提出了严禁“炒猪”、加强工作机制管理等相关政策[2-3].
当前对畜牧业研究的成果较多[4-6]. 养猪业作为畜牧业的一个重要组成部分,其研究成果被广泛应用于企业的管理和工程应用中[7-10],但在信息化建设方面仍相对欠缺. 近年来,基于知识图谱的大数据可视化分析成为了一大热点,知识图谱被成功应用于医学、农业、教育和体育等领域[11-22]. 本文利用知网数据库的文献摘要部分数据可以实现基于知识图谱的养猪业研究可视化分析,构建面向养猪产业研究的“一张图”,得到的结果可为部分管理者和研究者提供参考依据,有助于政府、企业和养殖户优化资源,促进畜牧业朝向智能化、数字化方向发展.
全文HTML
-
本文主要选用CNKI数据库中2002-2022年文献摘要内容作为基础数据. 可视化分析与构建流程图如图 1所示,主要分为3个过程:数据准备、参数设置、图谱分析. 以下分别对这3个过程进行详细的介绍.
-
CNKI导出的数据并不能直接用于数据分析,可通过Citespace软件自带的数据转换器对数据进行转换处理后再进行数据分析. 由于CNKI数据库中尚未对外界开放引文数据选项,因此引文处理功能在转换器中并未被提供.
-
在图谱可视化分析之前需要对多个参数进行设置,如:时间分割、阈值筛选、强度关联和网络精简等.
-
软件中的熵值曲线可以反映各时间区间段的变化情况,从而衡量养猪业研究图谱网络的有序性.
-
知识图谱的构建并不需要所有的数据,过多的数据量会导致较高的图谱冗余度从而削弱可视化效果. 图谱数据筛选可以达到去除冗余的作用,使得结果变得更加清晰. citespace软件给出了数据筛选的4种方式:
1) 选择每一个时间切片内出现频次或被引用频次最高的若干个节点数据;
2) 选择每一个时间切片内出现频次或被引用频次比例最高的若干个节点数据;
3) 设置最低出现(或被引用)频次、时间切片内出现(或被引)频次和、共现率(或共被引率);
4) 选择被引频次在单一时间切片的节点数据.
-
图谱节点关联强度可反映网络节点之间的关联性. 软件提供了3种计算节点关联强度的方法,本文选用Cosine方法. Cosine算法的计算公式如下:
其中cij为节点i和节点j共同出现的次数,si为节点i出现的频率次数,sj为节点j出现的频率次数. 标准化后的连接强度值在0到1之间. 连接强度值越大,节点之间的关联性越强;反之,节点之间的关联性越弱.
-
Citespace软件提供了网络精简的两种方法,即最小生成树算法(MST,minimum spanning tree)和寻径网络算法(Pathfinder). MST算法具有运算简洁高效的优点;Pathfinder算法具有完备性,且可以简化图谱网络的结构,重点显示主要的结构信息. 两种算法处理后的图谱网络均会丢失一些节点信息. 与MST算法相比Pathfinder算法处理后的图谱会保留更多的网络结构信息,数据量较大且网络连线较多时Pathfinder算法效果更好.
-
图谱分析主要包括聚类分析、结果优化和结果分析.
-
最大期望聚类算法(EM)可用于图谱网络节点的处理. EM聚类算法的原理如下:首先,将网络节点随机分配到制定的若干个聚类簇中;然后再统计网络节点在聚类簇中的分布比例;最后,通过比例结果得到所需模型参数.
对于CNKI数据库而言,Citespace软件提供了基于标题、作者和关键词等部分的数据聚类分析,主要通过潜在语义索引算法、假设检验算法和互信息算法提取文本数据中的关键信息.
-
得到的图谱可能会出现网络节点过多导致网络混乱而难以获取有用信息的情况,在获得的图谱结果中需要对关键词进行合并和排除,使得结果得到优化,观察者可以直观获取有用信息.
-
对获得的图谱进行可视化分析,如文献基础分析、作者机构分析、关键词与热点分析内容. 其中文献基础分析主要观察养猪业领域的研究热度变化情况,作者机构分析主要是分析作者和机构之间的关联性情况,关键词和热点分析主要是通过关键词共现分析、聚类分析和热点分析观察养猪业领域的研究方向和动态变化趋势.
1.1. 数据准备
1.2. 参数设置
1.2.1. 时间分割
1.2.2. 阈值筛选
1.2.3. 强度关联
1.2.4. 网络精简
1.3. 图谱分析
1.3.1. 聚类分析
1.3.2. 结果优化
1.3.3. 图谱分析
-
CNKI数据库由于开放权限的问题,Citespace软件对数据分析的类别较少. 本实验针对养猪业研究的发展、研究机构与人员、关键词等部分内容做主要分析,最后利用Citespace软件实现针对性的图谱构建.
-
本文选取了近20年主题为“养猪业”的CNKI数据库中的参考文献,共统计参考文献有1.38万篇,删除包含的新闻文稿、会议通知等部分无用数据,通过软件预处理后共获得参考文献14135篇. 获取的数据包含研究领域的机构、作者和关键词等主要内容,通过对这些数据的图谱分析可以展示不同阶段的发展情况,揭示未来养猪业的热点研究趋势.
-
年度文献统计可以反映该领域的研究热度变化情况,图 2反映了近20年养猪业研究的热度变化情况,从中可以看出养猪业研究的领域经历3个阶段:快速增长、平稳波动和缓慢下降.
快速增长阶段:2002-2008年,有关养猪业的研究文献从一百多篇增长到近千篇,解决了养猪业领域有关养殖和销售等方面存在的很多问题,但养猪业的规模化发展仍处于初步阶段.
平稳波动阶段:2009-2015年,有关养猪业的研究文献在这个阶段处于平稳波动时期,养猪业的规模化和商业化在此阶段快速发展,期间养殖模式的转型、疾病的危害和质量的品控等方面取得了较多成果.
缓慢下降阶段:2016-2021年,有关养猪业的研究文献数量逐年下降至三百篇左右,有关养猪业的研究处于成熟期,养猪业的研究方向主要为大规模化、多元化和智能化.
文献统计的三个阶段也反映了养猪业行业的发展动态. 快速增长阶段反映出该时间段正处于养猪业的初步发展阶段,即传统养殖向规模化养殖转型阶段,该阶段面临的问题比较多,因此这与研究文献数量快速增长相吻合;平稳波动阶段可以反映出此时养猪业研究文献已趋于稳定,该阶段主要面临养殖的方式、疾病的防控和品质的把控等问题;缓慢下降阶段可以反映出对传统问题的研究已趋于饱和,此时研究方向已转型到养殖业的现代化、多元化和智能化.
如图 3所示,养猪业文献主要发表于畜牧业和兽医学相关期刊,文献的来源也反映了养猪业研究的热点方向.
-
作者和研究机构作为研究养猪业发展动向的主体,通过对它们之间的关联性分析可以获取养猪业研究作者和机构的合作情况,通过citespace软件可以获得基于Pathfinder算法的知识图谱,结果如图 4所示.
统计发文量排名靠前的作者,与图谱进行比对分析出养猪业研究领域作者的关联性. 从图 4中可以看出养猪业文献作者之间的聚类关联性不强,呈现的关系网较弱. 与其他作者关联性较强的作者有孙世民、张园园等. 然而,从表 1中可以看出虞华、刘国信等为高发文量作者,但发文量靠前的作者在图谱网络中呈现的关联性较弱,体现出养猪业研究领域作者的合作性较弱.
机构之间的合作关联性分析亦可体现出养猪业领域的关联性. 由于单个机构分析图谱网络关联性较差,可通过对作者与机构图谱联合分析观察合作情况. 图 5为基于MST算法的作者与研究机构联合图谱网络,可以发现养猪业研究的机构主体为高校和科研院所. 从表 1发文量统计中可以看出葛翔教授所在的中国农业大学、齐振宏教授所在的华中农业大学和王林云教授所在南京农业大学等高校和研究所为主要的研究机构,但从图 5图谱中可以发现研究机构之间关联较为紧密的有孙世民所在的山东农业大学和张媛媛所在的山东财经大学,而这些作者所在的机构相对发文量并非靠前,充分反映出当前养猪业研究的机构之间合作性不强.
作者的时序图可以反映研究机构在养猪业领域的研究变化情况. 图 6给出了近20年养猪业研究相关作者的Top-k关联强度显示图,反映了作者机构的研究时间段、作者与机构在不同时间段的变化情况等内容,还可从侧面反映出不同时间段养猪业研究的热点变化情况.
-
关键词共现分析可以反映养猪业领域研究的重点内容,提炼出热点内容之间的关联性情况,在一定程度上让研究者了解当前热门研究的内容和方法. 图 7为养猪业研究MST图谱. 图 7中有关养猪业研究的关键词主要包括疾病防控、规模化、污粪处理和生猪产业等内容,关键词涉及中国养猪业目前存在的如疾病防控与治疗、养猪场智能化、环境污染治理和产品质量监督等问题. 从关键共现分析可以挖掘当前养猪业研究领域的一些科学问题,如疾病防控相关的科学问题包括非洲猪瘟、猪伪狂犬病、猪瘟疫苗、猪肺疫等内容;环境污染治理相关的科学问题包括废水处理、污粪处理、生态养猪和无害化处理等内容. 关键词共现分析可以直观描述当前养猪业领域研究的核心问题. 图 7中关键词之间的连线可以直观反映出养猪业研究关键词之间的关联性,可以体现养猪业领域各因素之间的关联程度.
-
基于时间线的关键词聚类可视化图可以直观描述关键词聚类关系及时间跨度(图 8). 有关养猪业研究的关键词聚类可以大体分为11类,聚类结果分析可以得到聚类模块值为0.53、平均轮廓为0.33,聚类结果较合理. 本文着重分析养猪业、生猪生产、动物疾病风险评估、养猪场废水、农产品加工5大聚类结果.
1) 聚类#1:养猪业. 主要内容有养猪企业、养殖户、饲料成本、养猪模式等. 可以看出该聚类主要涉及养猪业养殖规模、养殖成本、养殖模式等研究内容,充分反映了当前养殖业关心的高产量、高利益和低污染等问题. 2002年猪饲料就已经成为了养猪业研究的重要问题;2007年左右猪场养殖规模开始被讨论;2013年左右环境问题成为影响养猪业的一个重要问题.
2) 聚类#3:生猪生产. 主要内容有非洲猪瘟、防控工作、国务院、生猪养殖等. 可以看出该聚类反映了生猪生产与国务院的政策有关,同时生猪生产需要做好猪瘟等疾病防控工作. 2003年左右饲料加工问题成为生猪生产的一个主要问题;2005年左右猪病防治成为该聚类中的核心问题;2009年左右生猪生产被认为是提高农民增收的一个主要指标;2019年国务院政策被认为是生猪生产的重要影响因素.
3) 聚类#6:动物疾病风险评估. 主要内容有污粪处理、猪肺炎支原体、防疫体系、抗生素制剂等. 2003年开始猪粪问题就已经被认为是影响猪健康和环境污染的一个因素;2010年左右提出养猪需要清洁生产和合理的防疫体系;2014年左右提出了生猪疾病风险评估若干关键措施.
4) 聚类#7:养猪场废水. 主要内容有重金属、氮磷污染、环保养猪、耐药基因、微生物等. 2002年开始就已经确定了养猪场存在氮磷污染问题;2010年左右开始提出了废水和土壤中重金属超标问题;2016年研究发现了耐药基因;2018年左右发现了污水微生物及其多样性.
5) 聚类#10:农产品加工. 主要内容有优质猪肉、供应链管理、产业链等. 2006年左右开始提出质量安全问题;2008年开始提出了优质猪肉供应链,同时农产品加工成为了养猪业产业的一个重要方向;2015年开始养猪业领域农产品加工产业链化问题被提出.
关键词知识图谱时序图可以反映养猪业、养猪生产、疾病防控、环境污染和产品加工等领域在不同时间段研究重点的变化情况,同时也从侧面反映出研究重心由基础的繁殖生长、疾病防控和环境污染等问题朝着现代化、智能化和多元化方向发展.
-
热点分析可以反映每个时间切片内养猪业领域研究热点内容的变化情况. 图 9给出了养猪业研究关键词在时间切片上的突变图. 图 9中可以看出热点关键词的关联强度范围为7.750 3~111.221 4之间,时间范围为2002年-2022年. 从图 9中可以看出养猪业的关键词之间关联性较强,养猪业领域研究的核心问题主要集中于疫情防控、规模化养殖和安全生产等内容. 如疫情防控的时间跨度为整个时间段,充分体现出了该问题一直是研究的重点内容;养殖生产经历了集约化、规模化和安全化3个过程. 充分体现了当前养猪业领域从工业化、规模化朝向产业化、智能化方向发展.
2.1. CNKI数据预处理
2.2. 文献热度分析
2.3. 作者与机构分析
2.4. 关键词与热点分析
2.4.1. 关键词共现分析
2.4.2. 关键词聚类分析
2.4.3. 热点分析
-
本文主要对养猪业相关参考文献的作者、机构和关键词进行了相应的知识图谱可视化构建与分析. 分析结果可以发现养猪业研究的文献呈现“快速增长、平稳波动和缓慢下降”3个阶段,有关养猪业研究内容趋于成熟化和专业化;文献分布主要与畜牧业和兽医学有关,与国家政策指导方向有关;作者与机构的图谱分析结果发现网络关联可视化较弱,体现了研究主体之间关联性不强;关键词共现分析和热点分析可以发现养猪业研究的关键词主要包括疾病防控、规模化、污粪处理、生猪产业等内容,未来养猪业朝着产业化、规模化和智能化方向发展.
养猪业的发展对于保障人民的生活水平、促进社会经济的发展等方面具有十分重要的意义. 目前我国养猪业依然存在技术水平参差不齐、生产效率和经济效率差别很大、疾病防控和环境治理难度大、猪场抗风险能力较弱等问题. 下一步将利用本文的知识图谱分析技术解决养猪业领域疾病防控、污粪处理和生猪生产等单一方面的图谱生成和分析,构建面向养猪产业具有针对性研究的“知识图谱”.