-
随着互联网技术的飞速发展,人们步入了一个知识信息爆炸式增长的年代[1].每天在互联网上可以查阅到的各种信息浩如烟海,这固然为需求者提供了丰富的信息资源,但也让切实需要的信息检索过程变得较为困难[2].以文献数据为例,2018年全球文献的录入量突破了600万篇.按照这样的速度继续增长,学术界可供查询的文献资料总量将达到惊人的程度[3].对于一个急需在同类研究中寻找相关研究成果的研究人员而言,如何在数量如此庞大的文献资料中找到自己的需求,这是一个急需解决的难题[4].即便是同类研究,不同研究人员的切入点不同,那么对于文献资料的需求也不相同.各大搜索引擎为不同的研究者准确地提供他们所需要的信息资源,这就涉及到一个个性化推荐问题[5].所谓个性化推荐,就是能够准确地判断需求者对于信息资源的需求特征,并有针对性地为其选取合适的信息[6].在个性化推荐的早期阶段,一般需要借助特征标注来达到预期的目的,即对不同的信息资源进行相关特征的标记,以供后续查询时使用.随着信息量爆炸式增长,这种手工标记方法显然无法完成既定任务.深度学习网络的出现,使得个性化推荐寻找到一条有效的解决途径[7].通过对各种个性化需求的特征表达、建模和量化,进而将这些数据代入深度学习网络进行训练和搜索,最终自动为客户输出个性化的查询结果,这就是深度学习网络在个性化推荐中的应用过程[8].目前,深度学习网络在各类信息资源检索和查询领域的应用得到了比较好的验证.在语音信息识别领域,基于深度学习网络的识别算法将识别准确率提升了20%;在图像信息识别领域,基于深度学习网络的识别算法将识别准确率提升了10%[9-10].目前,已经出现的深度学习网络很多,如DNN网络、Segnet网络、Seq2Seq网络等等[11-13],本文借助深度学习网络构建个性化推荐算法,进而设计出一个针对文献查询的个性化推荐系统并通过实验加以验证.
全文HTML
-
在个性化推荐系统中,个性化搜索算法的设计是核心工作.本文基于深度神经网络算法[14-15]设计了一个4层次的搜索模型,如图 1所示.
使用的深度学习网络是长短期记忆模型(long-short term memory,简称LSTM网络),这是一种特殊的RNN(Recurrent Neural Network)模型,是为了解决RNN模型梯度弥散问题提出的.在传统的RNN中,当时间比较长时需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN长期记忆的效果,需要一个存储单元来存储记忆,因此LSTM模型被提出.首先,用户输入的搜索文本信息进入深度神经网络,如ui所示.然后,这些信息进入深度网络的第1个层次即嵌入层,在这里文本信息被嵌入到向量之中.最后,嵌入文本信息的向量经过LSTM神经网络处理,被设置成新的编码信息.在接下来的工作中,各个编码信息进入个性融合层,将被融合成个性化向量.个性融合向量再进入解码层,仍然按照LSTM神经网络的逆向处理完成解码.这些解码信息将在最大化任务目标的条件概率之下,作为推荐向量输出,具体处理的数学模型为
在上述各个层次的处理过程中,个性化融合向量的生成是一个关键工作.这个融合向量对应于图 1中的A,A的数学形式为A=(a1,a2,…,ai,…,an).参数n代表了个性融合向量的维度,参数ai代表了第i个个性化向量.假设通过之前的训练处理,用户的个性化需求特点已经被系统获悉,并且存储在兴趣向量A中,实际上接下来的工作就是比较A和A的相似性,具体处理为
上述处理的伪代码为
Personality_Recommendation()
{
Initialization(Parameters) //初始化各参数
Input(User_Information) //输入用户信息
LSTM_ Embed(Variables) //信息嵌入变量
LSTM_ Encode(Variables) //变量编码
LSTM_Fuse(Variables)//变量融合
LSTM_Decode(Variables) //变量解码
LSTM_Recommend(User_Information) //个性化推荐
}
-
以基于深度神经网络的推荐算法为核心,本文设计了一个3层次的个性推荐系统.系统的框架结构如图 2所示.
在这个系统中,个性化推荐工作的完成需要3个层次之间协同配合.最底层是数据层,数据层链接到系统可以访问并获得文献的各类文献数据库.中间层次是算法层,涉及到文献数据的整理、排序、查询、推荐等一系列功能,其核心是基于深度神经网络的个性化推荐算法.这个算法根据本文第1节的深度神经网络处理方案,将用户的各种个性化需求抽象成特征变量,进而经过编码融合解码形成推荐方案.在这一层次中,基于深度神经网络的个性化推荐算法,通过用户设定的检索词和文献库联系,其中检索器和检索库成为完成检索推荐工作的媒介.如果推荐结果不符合用户的个性化需求,用户可以对检索关键词进行重新设定,而算法则可以根据新的关键词或者新的关键词顺序,重新执行个性化检索和推荐.整个推荐系统的最上层是用户层,系统为用户提供检索接口.通过这个接口,用户可以对个性化系统进行访问,提供表征自己个性化需求的词语,并获得来自推荐系统的个性化推荐结果.
-
为了验证本文构建的个性化推荐系统以及基于深度神经网络个性化推荐方法的有效性,将文献查询的个性化推荐作为研究对象,展开具体的实验研究.
-
在实验中选用的计算机为HUAWEI MATEBOOK笔记本电脑,处理器为INTEL I7型号,内存8 GB,硬盘512 GB,独立显存2 GB.
计算机自带正版操作系统Windows 10,算法及系统设计语言为Java Web.
由于本文研究尚处于实验室阶段,无法与大型的文献数据库引擎进行对接,因此在各大图书资源和科技资料检索网站上下载并自行构建了文献数据库,以便于本文的个性化推荐系统访问和使用.数据库中共包含了计算机、通信、机械、电气、建筑、历史、政治、经济、数学、英语方面共10个类型的文献,每类文献的数量为100篇,总计数据库中有文献1 000篇.在下载文献和构建数据库的过程中,本文为了避免个性化推荐的验证效果不明显,对每类文献的100篇进行了差异化考量,尽可能选择那些有一定差异、能体现同类研究不同特征的文献.
为了形成与本文方法的对比,还选择了3类参考方法:基于DNN网络的文献检索方法、基于Segnet网络的文献检索方法、基于Seq2Seq网络的文献检索方法.
-
为了体现4种方法对文献检索个性化需求的满足程度,采用了个性化需求吻合度这一指标.假设系统为用户推荐了100篇文献,如果其中50篇都符合用户的个性化需求,那么此次推荐结果的个性化需求吻合度就是50%.
经过10类文献的个性化推荐测试,4类方法获得的用户个性化需求吻合度如表 1所示.
为了直观地显示几种文献检索方法对用户的个性化需求满足程度,将表 1中的数据绘制成如下的柱状图,如图 3所示.
1) 基于DNN网络的文献检索方法,对于计算机、通信、机械、电气、建筑、历史、政治、经济、数学、英语10类文献的检索,其个性化需求吻合程度分布在45.5%~76.1%之间,整体吻合程度不是特别理想.这种方法对于英语类文献的检索效果最好,但吻合程度也只达到了76.1%
2) 基于Segnet网络的文献检索方法,对于计算机、通信、机械、电气、建筑、历史、政治、经济、数学、英语10类文献的检索,其个性化需求吻合程度分布在50.2%~77.3%之间,整体吻合程度也不是特别理想.这种方法对于英语类文献的检索效果最好,但吻合程度也只达到了77.3%.
3) 基于Seq2Seq网络的文献检索方法,对于计算机、通信、机械、电气、建筑、历史、政治、经济、数学、英语10类文献的检索,其个性化需求吻合程度分布在50.7%~81.9%之间,整体吻合程度尚可.这种方法也是对于英语类文献的检索效果最好,吻合程度达到了81.9%.
4) 本文提出的基于深度神经网络的文献检索方法,对于计算机、通信、机械、电气、建筑、历史、政治、经济、数学、英语10类文献的检索,其个性化需求吻合程度分布在65.1%~90.2%之间,整体吻合度高,超出其他3类方法近10个百分点.尤其是对于英语类文献,吻合度更是达到了90.2%.
5) 上述比较结果充分表明,本文提出的基于深度神经网络的文献检索方法,其检索性能明显优于其他3种方法,达到了更高的个性化需求吻合程度,更加准确地把握了用户的个性化需求,根据该方法设计的个性化推荐系统有效.
3.1. 实验条件
3.2. 实验结果
-
互联网技术、信息技术的飞速发展,使得用户可供选择的信息资源爆炸式增长,从而给用户准确的信息搜索带来了困难.本文基于深度神经网络学习理论,构建了一个全新的个性化推荐算法,在这个算法中共设置了4个层次,分别是嵌入层、编码层、个性化特征融合层、解码层,从而将用户的个性化需求准确地反映到算法中,最终为用户提供更加符合要求的推荐.
以基于深度神经网络的文献检索算法为核心,构建了一个针对文献检索的个性化推荐系统,其设计目标是充分满足用户的个性化检索需求,提供更好的用户检索服务.
为了验证本文提出的算法和个性化推荐系统设计的有效性,课题组进一步展开了实验研究.在实验中选取了基于DNN网络的文献检索方法、基于Segnet网络的文献检索方法、基于Seq2Seq网络的文献检索方法为对比算法,对它们检索结果的个性化吻合程度进行了比较.
实验结果表明:针对计算机、通信、机械、电气、建筑、历史、政治、经济、数学、英语等10类文献的检索,本文提出的基于深度神经网络的个性化推荐方法都明显优于其他3种方法,对于不同文献检索后的个性化吻合程度,基本超出其他3种方法10个百分点,对于英语类文献的检索,其个性化需求吻合程度甚至达到了90.2%.这样的实验结果,充分证实了本文提出的基于深度神经网络文献的检索方法和基于此方法构建的个性化推荐系统的有效性.