留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

本体稀疏矩阵学习以及在相似度计算中的应用

上一篇

下一篇

兰美辉, 范全润, 高炜. 本体稀疏矩阵学习以及在相似度计算中的应用[J]. 西南大学学报(自然科学版), 2020, 42(1): 118-123. doi: 10.13718/j.cnki.xdzk.2020.01.017
引用本文: 兰美辉, 范全润, 高炜. 本体稀疏矩阵学习以及在相似度计算中的应用[J]. 西南大学学报(自然科学版), 2020, 42(1): 118-123. doi: 10.13718/j.cnki.xdzk.2020.01.017
Mei-hui LAN, Quan-run FAN, Wei GAO. Ontology Sparse Matrix Learning and Its Application in Similarity Computation[J]. Journal of Southwest University Natural Science Edition, 2020, 42(1): 118-123. doi: 10.13718/j.cnki.xdzk.2020.01.017
Citation: Mei-hui LAN, Quan-run FAN, Wei GAO. Ontology Sparse Matrix Learning and Its Application in Similarity Computation[J]. Journal of Southwest University Natural Science Edition, 2020, 42(1): 118-123. doi: 10.13718/j.cnki.xdzk.2020.01.017

本体稀疏矩阵学习以及在相似度计算中的应用

  • 基金项目: 国家自然科学基金项目(61841205);云南省科技厅高校联合面上项目(2017FH001-056)
详细信息
    作者简介:

    兰美辉(1982-), 女, 讲师, 硕士, 主要从事信息检索、机器学习、人工智能的研究 .

  • 中图分类号: TP391

Ontology Sparse Matrix Learning and Its Application in Similarity Computation

  • 摘要: 在大数据背景下,本体所包含的概念越来越多,其结构也越来越复杂.这要求其对应的本体算法能高效地降低计算的维度,进而减少计算复杂度.将原有的本体稀疏向量学习模型进行扩展,提出本体稀疏矩阵学习模型.通过矩阵导数计算设计一种迭代算法来获取逼近最优解.实验表明新算法在特定的本体应用领域有较高的效率.
  • 加载中
  • 图 1  PO本体O1

    图 2  “仿生机器人”本体O2

    图 3  “仿生机器人”本体O3

    表 1  实验1部分数据

    算法名称P@3平均准确率P@5平均准确率P@10平均准确率
    本文算法0.523 80.636 80.841 3
    无限推进算法[16]0.510 30.617 60.790 4
    特殊亏损函数算法[17]0.488 50.570 20.726 3
    梯度计算本体稀疏向量学习算法[18]0.486 40.579 60.708 2
    下载: 导出CSV

    表 2  实验2部分数据

    算法名称P@1平均准确率P@3平均准确率P@5平均准确率
    本文算法0.277 80.537 00.722 2
    无限推进算法[16]0.277 80.500 00.688 9
    特殊亏损函数算法[17]0.277 80.500 00.588 9
    梯度计算本体稀疏向量学习算法[18]0.277 80.500 00.655 6
    下载: 导出CSV
  • [1] 兰美辉, 任友俊, 徐坚, 等. k-部排序本体相似度计算[J].计算机应用, 2012, 32(4):1094-1096. doi: http://d.old.wanfangdata.com.cn/Periodical/jsjyy201204051
    [2] 兰美辉, 甘健侯, 任友俊, 等. k-部排序学习算法的可学习性分析[J].西南大学学报(自然科学版), 2016, 38(3):177-183. doi: http://xbgjxt.swu.edu.cn/jsuns/jsuns/ch/reader/view_abstract.aspx?flag=1&file_no=201603028&journal_id=jsuns
    [3] 张太华, 顾新建, 何二宝.产品知识模块本体的评价指标体系[J].贵州师范大学学报(自然科学版), 2012, 30(1):94-99. doi: 10.3969/j.issn.1004-5570.2012.01.021
    [4] 张鹏, 王国胤, 陶春梅, 等.基于本体粗糙集的程序代码相似度度量方法[J].重庆邮电大学学报(自然科学版), 2008, 20(6):737-741. doi: http://d.old.wanfangdata.com.cn/Periodical/cqydxyxb-zrkx200806025
    [5] GAO W, BAIG A Q, ALI H, et al. Margin Based Ontology Sparse Vector Learning Algorithm and Applied in Biology Science[J]. Saudi Journal of Biological Sciences, 2017, 24(1):132-138. doi: 10.1016/j.sjbs.2016.09.001
    [6] doi: http://link.springer.com/10.1007/s10586-016-0651-0 GAO W, GUO Y, WANG K. Y. Ontology Algorithm Using Singular Value Decomposition and Applied in Multidisciplinary[J]. Cluster Computing-The Journal of Networks Software Tools and Applications, 2016, 19(4):2201-2210.
    [7] doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=d8e092f4087a967c6c0aff9dad547597 GAO W, ZHU L L, WANG K Y. Ranking Based Ontology Scheming Using Eigenpair Computation[J]. Journal of Intelligent & Fuzzy Systems, 2016, 31(4):2411-2419.
    [8] 吴剑章, 朱林立, 高炜.本体算法中相似度矩阵的学习[J].小型微型计算机系统, 2015, 36(4):773-777. doi: 10.3969/j.issn.1000-1220.2015.04.025
    [9] YAN L, LI Y J, YANG X, et al. Gradient Descent Technology for Sparse Vector Learning in Ontology Algorithms[J]. Journal of Discrete Mathematical Sciences & Cryptography, 2016, 19(3):753-775.
    [10] doi: http://dl.acm.org/citation.cfm?id=2872432 WU J Z, YU X, GAO W. Similarity Matrix Learning for Ontology Application[J]. International Journal of Information Technology and Management, 2016, 15(1):1-13.
    [11] 高炜, 梁立, 徐天伟.基于正则化瑞利系数的半监督k-部排序学习算法及应用[J].西南师范大学学报(自然科学版), 2014, 39(4):124-128. doi: http://d.old.wanfangdata.com.cn/Periodical/xnsfdxxb201404023
    [12] 高炜, 朱林立, 梁立.基于图正则化模型的本体映射算法[J].西南大学学报(自然科学版), 2012, 34(3):118-121. doi: http://xbgjxt.swu.edu.cn/jsuns/jsuns/ch/reader/view_abstract.aspx?file_no=z20120322&flag=1
    [13] 朱林立, 戴国洪, 高炜.成对排序本体学习算法[J].西南师范大学学报(自然科学版), 2013, 38(12):101-106. doi: http://d.old.wanfangdata.com.cn/Periodical/xnsfdxxb201312020
    [14] 吴剑章, 余晓, 高炜.基于Mahalanobis矩阵学习的本体算法[J].西南大学学报(自然科学版), 2015, 37(2):117-122. doi: http://xbgjxt.swu.edu.cn/jsuns/jsuns/ch/reader/view_abstract.aspx?file_no=2015-02-117&flag=1
    [15] CRASWELL N, HAWKING D. Overview of the TREC 2003 Web Track[C]//Proceedings of the Twelfth Text Retrieval Conference. Maryland: NIST Special Publication, 2003: 78-92.
    [16] doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=Doaj000003903599 GAO W, ZHU L L, GUO Y. Multi-Dividing Infinite Push Ontology Algorithm[J]. Engineering Letters, 2015, 23(3):132-139.
    [17] GAO W, LIANG L, XU T W. New Multi-Dividing Ontology Learning Algorithm Using Special Loss Functions[J]. The Open Cybernetics & Systemics Journal, 2014(8):259-268.
    [18] GAO W, WU J Z, ZHU L L. Ontology Optimization Strategies for Sparse Vector Learning Using Gradient Descent Tricks[J]. Journal of Computational Information Systems, 2015, 11(17):6393-6402.
    [19] doi: http://www.ncbi.nlm.nih.gov/pubmed/25530752 GAO W, ZHU L L. Gradient Learning Algorithms for Ontology Computing[J]. Computational Intelligence and Neuroscience, 2014, 2014:1-12.
  • 加载中
图( 3) 表( 2)
计量
  • 文章访问数:  1011
  • HTML全文浏览数:  981
  • PDF下载数:  193
  • 施引文献:  0
出版历程
  • 收稿日期:  2017-07-15
  • 刊出日期:  2020-01-20

本体稀疏矩阵学习以及在相似度计算中的应用

    作者简介: 兰美辉(1982-), 女, 讲师, 硕士, 主要从事信息检索、机器学习、人工智能的研究
  • 1. 曲靖师范学院 信息工程学院, 云南 曲靖 655011
  • 2. 云南师范大学 信息学院, 昆明 650500
基金项目:  国家自然科学基金项目(61841205);云南省科技厅高校联合面上项目(2017FH001-056)

摘要: 在大数据背景下,本体所包含的概念越来越多,其结构也越来越复杂.这要求其对应的本体算法能高效地降低计算的维度,进而减少计算复杂度.将原有的本体稀疏向量学习模型进行扩展,提出本体稀疏矩阵学习模型.通过矩阵导数计算设计一种迭代算法来获取逼近最优解.实验表明新算法在特定的本体应用领域有较高的效率.

English Abstract

  • 本体作为一种结构化数据存储、表示、计算的模型,越来越受到广大研究者的重视[1-4].首先,作为结构化模型,在本体中数据的存放不是单纯的记录形式,而是图的形式结构化存储数据,图中的边表示数据之间的内在联系.其次,事实证明通过图模型并利用统计和图论的知识,对处理本体中的数据信息有一定的优势.

    最近,针对本体的特殊框架和应用背景,涌现了诸多本体学习算法[5-14],其中稀疏向量学习算法被广泛关注并应用于本体学习中.基于稀疏向量学习的本体算法通过本体稀疏向量对高维本体顶点向量进行有效信息提取,获取最有价值的信息,并将每个本体顶点映射成实数.

    本文提出一种扩展的本体稀疏向量计算方法,并将该算法应用于两个特殊的工程领域来验证算法的有效性.

  • 在本体图建模后,需要将每个顶点对应概念的信息用一个统一维度的向量来表示.设v=(v1,…,vp)是顶点对应的p维向量.

    本体函数通过本体稀疏向量可表示为

    其中:β=(β1,…,βp)表示本体稀疏向量,其大部分分量均为0;β0是一个表示误差的项.经典本体稀疏向量β学习模型为:

    其中:l(β)为亏损项,Q(β)为控制本体稀疏向量β稀疏度的项.

    设{(viyi)}i=1n⊂ℝp×ℝ为本体训练样本,其中viyi分别表示输入和输出.设关系矩阵W∈ℝn×n,其系数[W]ij=rij≥0表示本体概念(viyi)和(vjyj)之间的语义关系,且有W=WTr11=r22=…=rnn=0(对角线上元素均为0)成立.本文考虑由扩展的稀疏向量来得到本体函数的计算模型如下:

    其中:βi=(βi1,…,βip)∈ℝp,偏移量ei∈ℝ服从N(0,σ2)分布.对于每个vi,计算其对应的yi,式(3)和式(1)的差别在于以下两点:

    1) 式(1)中对于所有vi,所求内积都是用同一个稀疏向量β,而式(3)中不同的vi对应不同的稀疏向量βi

    2) 式(1)中对于所有vi,其误差项都是相同的,而在式(3)中,不同的vi对应不同的误差ei.由此可知,计算模型(3)是计算模型(1)的推广,当β1=β2=…=βn=βe1=e2=…=en=β0时,式(3)退化为式(1).

    通过计算式(3),我们要学习的不止是单个稀疏向量β,而是一组稀疏向量:β1β2,…,βn.将这组稀疏向量进行合并得到稀疏矩阵Ω=[β1Tβ2T,…,βnT]∈ℝn×p,进而学习的目标从本体稀疏向量学习转化为本体稀疏矩阵的学习.本文考虑的本体学习算法可以表示为:

    其中:$\sum\limits_{i = 1}^n {{{\left( {{y_i} - {\mathit{\boldsymbol{v}}_i}\mathit{\boldsymbol{\beta }}_i^{\rm{T}}} \right)}^2}} $用来表示误差项,Λ(ΩWλ1λ2)用来控制本体稀疏矩阵Ω的稀疏程度.在本体工程中,一种常见的Λ(ΩWλ1λ2)设置方法如下:

    其中λ1λ2为平衡调节参数.当‖βi-βj2的值比较小时,可以认为vivj属于本体图的同一个团,或者从数据的角度看属于同一个聚类中.此时,rij>0.此外,易知(5)式是凸的且存在全局最优解.

    V=[v1T,…,vnT]=[u1,…,up]T为本体信息矩阵,其中ui∈ℝn,(5)式可写成

    其中:Ξ=[diag(u1)|diag(u2)|…|diag(up)]∈ℝn×(pn),diag(ui)表示对角线元素为ui中对应元素的对角矩阵,i∈{1,…,p};向量化算子

    Ip∈ℝp×p为单位矩阵,⊗表示克罗内克乘积,Iil∈{0,1}定义如下:如果vec(Ω)的第l个元素[vec(Ω)]l属于βi中的元素,则Iil=1;否则Iil=0.矩阵C定义为:

    对角矩阵Fe对角线上的元素为

    Fg=IpC,通过计算J(Ω)关于vec(Ω)的导数,可得

    由于(4)式为凸优化问题,Ω成为问题的全局最优解当且仅当其满足条件(7).然而矩阵FgFe依赖于Ω,在Ω未知的情况下,这两个矩阵无法计算.因此,通过优化如下目标函数来解本体问题(4):

    其中Fg(t)=IpC(t)是块对角矩阵,Fg(t)∈ℝpn×pn.

    Fe(t)∈ℝpn×pn是对角矩阵,定义为

    用迭代平方最小策略可以得到最小化(8)式的逼近最优解:给定Fg(t)Fe(t)Ω的最优解可通过解

    得到.设

    可知

    得到Ω(t+1)后,再更新Fg(t+1)Fe(t+1).

    整个本体学习算法概括起来描述如下.

    算法A  基于本体稀疏矩阵学习的本体相似度计算和本体映射算法

    步骤1:输入本体图(对于本体映射,则输入多本体图),将每个本体概念对应顶点的所有语义信息用一个p维矩阵表示.

    步骤2:确定本体样本集合{(viyi)}i=1n,从而得到本体信息矩阵VΞ,目标向量y,关系矩阵W以及两个平衡参数λ1λ2.

    步骤3:初始化计数变量t=0,并设置Fg(0)Fe(0)的值;

    步骤4:重复以下迭代直到收敛:

    计算vec(Ω(t+1))=(H(t))-1ΞT(In+Ξ(H(t))-1ΞT)-1y

    更新Fg(t+1)=IpC(t+1)以及[Fe(t+1)]ll=${\left[ {\mathit{\boldsymbol{F}}_e^{(t + 1)}} \right]_{l, l}} = \sum\limits_{i = 1}^n {\frac{{{I_{i.l}}{{\left\| {\mathit{\boldsymbol{\beta }}_i^{(t + 1)}} \right\|}_1}}}{{{{\left[ {{\rm{vec}}\left( {\left| {{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}^{(t + 1)}}} \right|} \right)} \right]}_l}}}} $

    t=t+1.

    步骤5:输出本体稀疏矩阵Ω,并根据(3)式计算本体图中每个顶点对应的实数.

    步骤6:通过两个顶点对应实数的一维距离来判断顶点对应本体概念之间的相似程度:距离越短则相似度越高,距离越远则相似度越小.对于本体映射,只计算不同本体概念之间的相似度.

    步骤7:选择合理的策略,给每个本体概念一个高相似度概念列表,并返回给用户.

  • 通过下面两个实验,将上述算法分别应用到PO植物学本体和仿生机器人本体,进而分别验证新本体稀疏矩阵学习算法对特定应用领域本体相似度计算和本体映射构建的效率.得到最优本体稀疏矩阵Ω后,忽略噪声项e1e2,…,en,通过${\mathit{\boldsymbol{y}}_i} = \sum\limits_{j = 1}^p {v_i^j} \mathit{\boldsymbol{\beta }}_i^j$来计算每个顶点对应的实数,最后通过实数之间的差值大小来判定本体概念之间的相似度.

  • 首先验证本文本体稀疏矩阵学习算法是否可应用于植物学PO本体O1(其基本结构见图 1),该本体相关数据来自http://www.plantontology.org,其本质是一个给植物学领域专家使用的字典,也可以看成一个有查找和分析功能的数据库.最后数据的效率使用传统的P@N[15]平均准确率来衡量,同时在N=3,5,10时对这4类准确率进行对比.将本体多重分割框架下的无穷推进算法[16]、本体多重分割框架下基于特殊亏损函数的本体学习算法[17]和基于梯度计算的本体稀疏向量学习算法[18]作用于植物学PO本体,实验结果见表 1.

    表 1可知,本文本体稀疏矩阵学习算法准确率要明显高于其他3类本体学习算法.

  • 第二个实验是将本文中新本体稀疏矩阵学习算法应用于仿生学领域的两个“仿生机器人”本体O2和O3(图 23),通过在两个仿生学本体顶点之间的相似度计算来得到本体映射,但实验数据只关注于两个本体之间的相似度计算.两个本体由文献[19]构造,用于表示机器人的各个部件的关联.将本体多重分割框架下的无穷推进算法[16]、本体多重分割框架下基于特殊亏损函数的本体学习算法[17]和基于梯度计算的本体稀疏向量学习算法[18]也应用于“仿生机器人”本体O2和O3.实验数据结果同样采用P@N准确率的形式来对比,表 2给出当N的取值为1,3,5时部分对比结果.

    表 2中数据对比可知,本文所提出的本体稀疏矩阵学习算法在“仿生机器人”本体O2和O3间进行相似度计算的效率要明显高于其他3类本体学习算法,且随着N的增大,这种优势明显增加.

  • 本文主要研究本体稀疏向量学习在本体相似度计算和本体映射中的应用.与以往文章的差别在于,考虑给每个概念一个特定的本体稀疏向量,进而整个算法归结于学习一个本体稀疏矩阵.从矩阵的导数计算出发,得到一个迭代策略来计算优化模型的逼近解.

参考文献 (19)

目录

/

返回文章
返回