基于转换策略的多标记学习改进算法

任翀

doi:10.13718/j.cnki.xsxb.2019.03.021

摘要: 针对传统转换多标记学习算法较难确定最低阈值的问题，该文对传统转换策略的多标记学习算法进行改进，提出了一种基于最低阈值的学习算法（TFEL），该方法根据类别标记学习为每个类别得到一个最低阈值.当分类器将一个测试示例预测为某个类别标记的分值大于为该类别标记学得的最低阈值时，则将该类别标记添加到该测试示例的最终分类结果中.实验结果表明，TFEL方法能够得到较好的分类效果，证明了该方法的可行性和有效性.

Abstract: To solve the problem that the traditional problem transformation method, multi-label learning algorithm is difficult to determine the lowest threshold, the traditional multi-label learning algorithm has been improved in this paper and a learning algorithm based on the lowest threshold for each label (TFEL) been proposed.The method deals with learning a minimum threshold for each category label.When the score for a test instance to one label is bigger then threshold which is learned for the label, the label will be added to the last classifying result for the test instance.The method of programming, experimental results show that TFEL method can achieve better classification results, which proves the feasibility and effectiveness of this method.

Key words:

全文HTML

传统监督学习框架下多种算法对单一语义具有较好性能^[1]，但是现实中对象常表现出多义性，因此需要建立多个标签子集，多目标学习也变得越来越受关注.多目标学习在数据挖掘中的应用日益成为广大学者研究的焦点^[2].多目标学习指其中的一个示例有多个类别标记与之相对应，其最终实现示例预测多个类别的标记^[3].这样的例子有：某个基因序列^[4]，其可能具有多个功能，如“新陈代谢”和“合成白细胞”等.

有关多标记学习的研究已有很多，目前提出的学习方法和策略主要有两类：①提出新的算法或改进的算法，文献[5]中给出一种k近邻方法的多标记分类方法，并进行改进使得其性能更优.文献[6]提出了基于概率隐语义分析(Probabilistic latent semantic analysis，PLSA)模型的多标记假设重用文本分类算法，解决了多标记文本分类时文本标记关系不明确以及特征维数过大的问题.文献[7]中提出了一种用于多标签学习的多层ELM-RBF神经网络方法，在单标签和多标签数据集上都有较好性能.该类方法在多标记分类上局限性比较大. ②基于转换的PT(Problem Transformation)策略^[8-9]，总共包含有PT1~PT5等5种方法.其中，PT5的实现思路是首先把(x_i，Y_i)的多标记示例经过一定的处理后将其分成|Y_i|个单标记数据集，接着再将得到的|Y_i|个单标记数据集经过一定的处理后形成与之对应的一个单标记分类模型.确定一个合适的阈值是该方法实现的关键，阈值的取值大小直接影响分类器的性能.文献[10]中提出了一种标签优先标记集合(LPP)转换方法，根据标签的重要性排序来解决标签依赖性问题.文献[11]提出了一种基于标签间相关性的多标签分类方法，它使用了问题变换方法和算法适应方法，该方法分类准确性更高.

上述基于问题转换方法的关键是确定最低阈值，然而阈值的设定还没有一个准确的原则，如设置过高，类别标记会被漏判，如设置过低，则会出现多判.如何确定最低阈值还是目前的一个难题，针对这个问题，本文提出了一种基于最低阈值的多标记学习算法(TFEL，Threshold For Each Label)，根据类别标记学习为每个类别得到一个最低阈值.当分类器将一个测试示例预测为某个类别标记的分值大于为该类别标记学得的最低阈值时，则将该类别标记添加到该测试示例的最终分类结果中.实验结果表明，本文提出的TFEL方法具有较好的分类效果.

1. PT5算法的缺陷分析

PT5是将(x_i，Y_i)的多标记示例经过一定的处理后形成|Y_i|个单标记数据集，比如，(x₁，{y₁，y₂})可以转换成(x₁，y₁)和(x₁，y₂)2个单标记示例，接着分配一个单标记分类器给上述各个数据集.同时，所有的单标记分类器都会有一个对应的分布，表示每个对象属于相应类别的概率，并根据分布为每个对象输出一组类标记集合.通常情况下取threshold=0.5为最低阈值.进行类别y_l包含示例x_i的概率预测时，如果该数值大于最低阈值，则将类别y_l合并到示例x_i预测类别集合.公式表示形式为

在PT5方法中，为其设置一个适当的最低阈值对该方法非常重要，在现有的多标记学习算法中设置一个适合的最低阈值也十分必要.阈值设置得过高或过低都会影响到预测结果.当我们设置的阈值过高时，得到的预测结果就可能不全；当我们设置的阈值过低时，就会得到大量的无用类别.因此，在所有的类别中设置同一个阈值是不恰当的.

为解决设置最低阈值的难题，基于最低阈值多目标学习，本文提出了TFEL学习算法.在使用该算法时，对于类别y_l(1≤l≤|Y|)，都将会有一个阈值与之对应，在本文中将其记为threshold_l，同时所有类别的标记集合记为Y.如果一个示例x_i预测为类别y_l，可能性f (x_i，y_l) > threshold_l，将其代入式(2)，并将y_l的类别标记添加到对x_i预测的类别标记集合中，即

TFEL方法对传统单标记学习算法和现有多标记算法中的阈值确定具有通用性.

2. 基于最低阈值的多标记学习算法TFEL(Threshold For Each Label)

4. 结论

通过对多标记学习详细的理论研究，本文结合最低阈值知识提出了多标记学习TFEL算法.通过训练数据集可以得到每一个类别标记的最佳最低阈值，这样能够使分类器的分类性能达到最佳.通过对该算法进行大量实验，结果表明TFEL算法具有较好的分类效果.但本文算法也具有一定的不足，后续工作需要：①对单标记数据进行预处理得到数据集，将TFEL方法应用于现有的多标记数据集；②将TFEL方法中的阈值确定方法应用于现有的多标记学习算法，并进行分析比较；③进一步研究数据集中每一个类别正负例个数的分布对最低阈值的影响.

参考文献 (11)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

类别标记	iris	diabetes
{1}	50	95
{2}	45	276
{3}	6	0
{1，2}	0	394
{2，3}	49	0
总数	150	765

[1]	晏勇.基于SKLLE和SVM的人脸表情识别[J].西南师范大学学报(自然科学版), 2014, 39(1):55-60. doi: http://xbgjxt.swu.edu.cn/jsuns/jscnuhhse/ch/reader/view_abstract.aspx?file_no=X2014-01-055&flag=1
[2]	ZHANG M L, ZHOU Z H.A Review on Multi-Label Learning Algorithms[J].IEEE Transactions on Knowledge and Data Engineering, 2014, 26(8):1819-1837. doi: 10.1109/TKDE.2013.39
[3]	ZHANG M L, WU L.Lift:Multi-Label Learning with Label-Specific Features[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(1):107-120. doi: 10.1109/TPAMI.2014.2339815
[4]	姜海燕, 刘昊天, 舒欣, 等.基于最大均值差异的多标记迁移学习算法[J].信息与控制, 2016, 45(4):463-470, 478. doi: http://d.old.wanfangdata.com.cn/Periodical/xxykz201604015
[5]	KANJ S, ABDALLAH F, DENCEUX T, et al.Editing Training Data for Multi-Label Classification with the K-nearest Neighbor Rule[J].Pattern Analysis and Applications, 2016, 19(1):145-161. doi: 10.1007/s10044-015-0452-8
[6]	蒋铭初, 潘志松, 尤峻.基于PLSA主题模型的多标记文本分类[J].数据采集与处理, 2016, 31(3):541-547. doi: http://d.old.wanfangdata.com.cn/Periodical/sjcjycl201603013
[7]	ZHANG N, DING S, ZHANG J.Multi Layer ELM-RBF for Multi-Label Learning[J].Applied Soft Computing, 2016, 43:535-545. doi: 10.1016/j.asoc.2016.02.039
[8]	余鹰.多标记学习研究综述[J].计算机工程与应用, 2015, 51(17):20-27. doi: 10.3778/j.issn.1002-8331.1506-0063
[9]	梁新彦, 钱宇华, 郭倩, 等.面向多标记学习的局部粗糙集[J].南京大学学报(自然科学), 2016, 52(2):270-279. doi: http://d.old.wanfangdata.com.cn/Periodical/njdxxb201602008
[10]	ABDALLAH Z, EL-ZAART A, OUEIDAT M.An Improvement of Label PowerSet Method Based on Priority Label Transformation[J].International Journal of Applied Engineering Research, 2016, 11(16):9079-9087.
[11]	ALAZAIDAH R, THABTAH F, AL-RADAIDEH Q.A Multi-Label Classification Approach Based on Correlations Among Labels[J].International Journal of Advanced Computer Science and Applications, 2015, 6(2):52-59.

留言板