Sampling Recommendation Algorithm Based on Collaborative Filtering for Software Defect Data

WU Keqi; CUI Mengtian; Mariani Manuel Sebastian; ZHANG Yicheng; XIE Qi; ZHOU Xuchuan

doi:10.13718/j.cnki.xsxb.2021.11.007

2021 Volume 46 Issue 11

Article Contents

Previous Article Next Article

WU Keqi, CUI Mengtian, Mariani Manuel Sebastian, et al. Sampling Recommendation Algorithm Based on Collaborative Filtering for Software Defect Data[J]. Journal of Southwest China Normal University(Natural Science Edition), 2021, 46(11): 46-55. doi: 10.13718/j.cnki.xsxb.2021.11.007

Citation:

WU Keqi, CUI Mengtian, Mariani Manuel Sebastian, et al. Sampling Recommendation Algorithm Based on Collaborative Filtering for Software Defect Data[J]. Journal of Southwest China Normal University(Natural Science Edition), 2021, 46(11): 46-55. doi: 10.13718/j.cnki.xsxb.2021.11.007

Sampling Recommendation Algorithm Based on Collaborative Filtering for Software Defect Data

1.
The Key Laboratory for Computer Systems of State Ethnic Affairs Commission, Southwest Minzu University, Chengdu 610041, China
2.
Department of Business Administration, University of Zurich, Zurich CH-8050, Switzerland
3.
Department of Physics, University of Fribourg, Fribourg CH-1700, Switzerland

More Information

Corresponding author: CUI Mengtian ;
Received Date: 25/09/2020
Available Online: 20/11/2021
MSC: TP311

Abstract

Based on the fact that no single sampling method can be performed well on all defect data sets and it is necessary to select suitable sampling methods for software defect data, a sampling recommendation algorithm based on collaborative filtering for software defect data has been proposed. Firstly, the mainstream sampling methods are sorted on historical defect data to obtain the performance ranking of the mainstream sampling methods under specific classification algorithms and metrics. Secondly, the Jaccard similarity coefficient between the new defect data and the historical defect data is calculated to mine data similarity. And finally, the information of sampling method ranking and data similarity is combined to build a recommendation network, and the cooperative filtering algorithm is used to recommend the applicable sampling method for the new software defect data. The simulation experiment is carried out on multiple NASA defect data sets by using Python. The experimental results show that the sampling recommendation algorithm based on collaborative filtering for software defect data is feasible and effective.
- software defect data,
- sampling recommendation algorithm,
- collaborative filtering,
- data similarity

References

[1]	邓文凯. 不平衡数据分类研究及其在污水处理系统中的应用[D]. 广州: 华南理工大学, 2017.http://cdmd.cnki.com.cn/article/cdmd-10561-1017733668.htm Google Scholar
[2]	娄丰鹏. 基于相关性分析的跨项目软件缺陷预测方法研究[D]. 南京: 南京邮电大学, 2018.http://cdmd.cnki.com.cn/article/cdmd-10293-1018898731.htm Google Scholar
[3]	张艳. 面向不平衡数据的离群点检测研究[D]. 青岛: 青岛科技大学, 2017.http://cdmd.cnki.com.cn/article/cdmd-10426-1017719651.htm Google Scholar
[4]	ZHAO H, LI X J. A Cost Sensitive Decision Tree Algorithm Based on Weighted Class Distribution with Batch Deleting Attribute Mechanism [J]. Information Sciences, 2017, 378: 303-316. doi: 10.1016/j.ins.2016.09.054 CrossRef Google Scholar
[5]	PÉREZ-RODRÍGUEZ J, ARROYO-PEÑA A G, GARCÍA-PEDRAJAS N. Simultaneous Instance and Feature Selection and Weighting Using Evolutionary Computation: Proposal and Study [J]. Applied Soft Computing, 2015, 37: 416-443. doi: 10.1016/j.asoc.2015.07.046 CrossRef Google Scholar
[6]	LIN W C, TSAI C F, HU Y H, et al. Clustering-Based Undersampling in Class-Imbalanced Data [J]. Information Sciences, 2017, 409-410: 17-26. doi: 10.1016/j.ins.2017.05.008 CrossRef Google Scholar
[7]	古平, 杨炀. 面向不均衡数据集中少数类细分的过采样算法[J]. 计算机工程, 2017, 43(2): 241-247. Google Scholar
[8]	易未, 毛力, 孙俊, 等. 改进Smote算法在不平衡数据集上的分类研究[J]. 计算机与现代化, 2018(3): 83-88. Google Scholar
[9]	杨毅, 卢诚波, 徐根海. 面向不平衡数据集的一种精化Borderline-SMOTE方法[J]. 复旦学报(自然科学版), 2017, 56(5): 537-544. Google Scholar
[10]	BATISTA G E A P A, PRATI R C, MONARD M C. A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data [J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29. doi: 10.1145/1007730.1007735 CrossRef Google Scholar
[11]	崔鑫, 徐华, 宿晨. 面向不均衡数据集的过抽样算法[J]. 计算机应用, 2020, 40(6): 1662-1667. Google Scholar
[12]	WOLPERT D H, MACREADY W G. No Free Lunch Theorems for Optimization [J]. IEEETransactions on Evolutionary Computation, 1997, 1(1): 67-82. doi: 10.1109/4235.585893 CrossRef Google Scholar
[13]	邱凌峰. 基于机器学习的社会安全风险分析研究[D]. 北京: 中国人民公安大学, 2019.http://cdmd.cnki.com.cn/Article/CDMD-10041-1019838170.htm Google Scholar
[14]	覃朗, 朱建军, 衣柏衡, 等. 非均衡数据下基于信息增益的SMOTE改进SVM模型研究[J]. 中国管理科学, 2016, 24(S1): 128-136. Google Scholar
[15]	卢竹兵, 马小琴, 吴汶娟, 等. 基于情感分析和情感遗忘的协同过滤推荐策略[J]. 重庆师范大学学报(自然科学版), 2020, 37(5): 103-108. Google Scholar
[16]	漆月, 周欢. 基于图书分类号的自适应个性化图书推荐系统的研究[J]. 西南师范大学学报(自然科学版), 2014, 39(4): 210-214. Google Scholar
[17]	SARWAR B, KARYPIS G, KONSTAN J, et al. Item-Based Collaborative Filtering Recommendation Algorithms[C]//Proceedings of the Tenth International Conference on World Wide Web. New York: ACM Press, 2001: 285-295. Google Scholar
[18]	纪平, 胡学友, 杨文娟, 等. 基于矩阵分解的协同过滤推荐算法[J]. 合肥学院学报(综合版), 2020, 37(5): 10-18. Google Scholar
[19]	KOREN Y, BELL R, VOLINSKY C. Matrix Factorization Techniques for Recommender Systems [J]. Computer, 2009, 42(8): 30-37. Google Scholar
[20]	褚菲. CCPP煤气系统建模与运行优化研究[D]. 沈阳: 东北大学, 2013.http://cdmd.cnki.com.cn/article/cdmd-10145-1016009240.htm Google Scholar

Access History

通讯作者: 陈斌, bchen63@163.com

1.
沈阳化工大学材料科学与工程学院沈阳 110142

Figures(3) / Tables(9)

Export Citation

PDF

XML

Article Metrics

Article views(3014) PDF downloads(291) Cited by(0)

Access History

Other Articles By Authors

on this site
on Google Scholar

HTML

在这个信息爆炸的时代，时刻都产生着大量的数据，在这些数据中，有一类为不平衡数据，其各个类别的样本数目相差巨大^[1]. 在软件缺陷预测领域，其缺陷数据集通常都是不平衡的^[2]. 但是直接用传统分类方法解决不平衡数据的分类问题时，其效果往往都不理想. 这是因为不平衡数据集中多数类的数量远远大于少数类的数量，导致数据集没有足够的少数类信息进行分类预测^[3]. 传统分类方法追求整体的准确率最大化，从而导致模型更偏向于多数类，但不平衡数据中的少数类在现实生活中的意义往往更大.

为了解决软件缺陷数据集的不平衡问题，有大量的方法被提出. 这些方法主要是在算法层面和数据层面上解决数据不平衡问题，算法层面有代价敏感^[4]、集成学习和特征选择^[5]方法. 数据层面的方法主要是过采样、欠采样和混合采样. 过采样中使用最频繁的是随机过采样(random over sampling)，因为该算法的实现较简单并且效果还比较好. 文献[6]使用簇心或最接近簇心的样本代替原数据，基于此提出了两种聚类的欠采样方法. SMOTE(synthetic minority oversampling technique)算法存在一些不足，比如易引入噪声点、合成的样本有重复等问题，于是产生了很多改进算法^[7-9]. 文献[10]提出了将SMOTE算法和数据清洗方法相结合，增加了多数类和少数类的可分性.

过采样和欠采样虽然可以平衡数据分布，但欠采样可能会删除对分类有价值的数据，过采样则会增加过拟合的风险而且可能引入不合理的样本数据^[11]. 在软件缺陷预测领域，使用不同的缺陷数据集、分类技术和度量指标得到的最好抽样方法有时会出现矛盾. 这意味着没有一种抽样方法可以在所有软件缺陷数据上表现得很好^[12]. 因此，由于有大量不同的抽样方法，软件研究人员和从业人员为新的软件缺陷数据选择适用的抽样方法将是非常困难但相当重要的，故本文提出了一种抽样推荐算法，为新数据集推荐适用的抽样方法.

1. 相关准备

1.1. 欠采样

在不平衡数据中，负样本为数量多的样本，正样本为数量少的样本，且正样本在现实生活中的意义大于负样本. 欠采样是指选取一些具有代表性的负样本，这样大大减少了负样本的数量，使得负样本和正样本的数量相当. 虽然提高了正样本分类准确率以及分类效率，但同时也丢失了负样本的数据特征，分类模型不能充分学习到负样本的样本特征，导致负样本的分类准确率降低. 下面将介绍几种主流的欠采样方法：

随机欠采样(random under sampler)的思想就是随机选取一些多数类样本并剔除掉. 这种方法的缺点是被剔除的样本可能包含着一些重要信息，致使学习出来的模型效果不好.

NearMiss本质上是一种原型选择(prototype selection)方法，为了在一定程度上解决随机欠采样的信息丢失问题，用于训练的样本都是从多数类样本中选取最有代表性的.

Tomek Link表示不同类别之间距离最近的一对样本，即这两个样本互为最近邻且分属不同类别^[13]. 如果两个样本形成了一个Tomek Link，则要么其中一个是噪音，要么两个样本都在边界附近. 这样通过移除Tomek Link就能“清洗掉”类间重叠样本，使得互为最近邻的样本都属于同一类别，从而能更好地进行分类.

ENN的主要思想是如果有超过一半的k近邻点都不属于多数类的多数类样本，那么这个多数类样本会被剔除.

Cluster Centroids算法不是随机抽取原始样本，其每一个类别的样本都会用k-Means算法的中心点进行合成.

1.2. 过采样

过采样是目前比较主流的处理数据不平衡的方法，其通过增加正样本的数量来平衡数据集中的正负样本，工作原理与欠采样相反. 过采样增加了正样本的数量和多样性，进而增加了正样本的数据特征，使得分类模型能够学习到更多的正样本特征，但同时这些生成的特征可能成为样本噪声，反而不利于分类模型对正样本的正确分类. 下面将介绍几种主流的过采样方法：

随机过采样的核心思想是随机的复制、重复少数类样本^[14]，最终使得少数类与多数类的数量相当从而得到一个均衡的数据集.

SMOTE的思想是通过在少数类样本之间插值来生成少数类的新样本. 具体地，对于一个少数类样本X_i使用k近邻法，求出离X_i距离最近的k个少数类样本，样本之间用n维特征空间下的欧氏距离进行度量. 然后从k个近邻点中随机选取一个，使用下列公式生成新样本：

其中$ \mathop X\limits^ \wedge$为选出的k近邻点，δ是一个随机数且取值范围为[0, 1].

Border-line SMOTE算法会先将所有的少数类样本分成3类noise，danger和safe，根据少数类样本的k近邻数来判断属于哪一类，如果所有的k近邻数都是多数类就属于noise类别，超过一半的k近邻数是多数类就属于danger类别，超过一半的k近邻数是少数类就属于safe类别. 该算法只会从danger类别的少数类样本中随机选择，然后用SMOTE算法合成新的样本. 因为danger类别处于边界附近，而处于边界附近的样本更容易被误分.

ADASYN(adaptive synthetic sampling)名为自适应合成抽样，其最大的特点是每个少数类生成新样本的数量是自动机制决定的，而SMOTE对每个少数类样本生成的数量都相同. ADASYN给每个少数类样本施加了一个权重，周围的多数类样本越多则权重越高，导致它易受离群点的影响.

1.3. 混合采样

欠采样和过采样相结合的方法称为混合采样，通过样本生成模型生成一部分新的正样本，通过样本筛选模型选取一部分具有代表性的负样本，从而达到正负样本的数量相当. 混合采样旨在减少负样本的特征丢失，同时减少正样本的噪声生成. 主流的混合采样方法有SMOTEENN和SMOTETomek.

1.4. 协同过滤算法

协同过滤算法是目前推荐系统中最常用的一种推荐策略，许多互联网公司如阿里巴巴、百度和腾讯等已经成功应用到实际系统中，其主要思想是根据用户的历史评价数据进行分析，计算得出用户间的相似性，结合相似度给出最终的推荐列表^[15-16]. 协同过滤算法一般分为两种类型，分别是基于模型的协同过滤和基于近邻的协同过滤^[17]. 基于模型的协同过滤是找一个包含用户和项目之间关系的优良子空间，这样就可以计算出评分^[18]. 基于近邻的协同过滤易于理解，算法比较简单，但是在用户项评分比较稀疏的情况下，很难找到稳定可靠的近邻^[19].

4. 结束语

本文提出了面向软件缺陷数据的协同过滤抽样推荐算法. 该算法首先在特定的分类器下计算训练集在11种主流的抽样方法处理后的预测准确率，并以此为衡量标准对抽样方法进行排序，然后使用杰卡德相似系数计算测试集与训练集之间的相似度，最后通过前面的排名分数和相似度值就能得到推荐分数，根据推荐分数为用户推荐适用的抽样方法. 在NASA的数据集上开展的验证实验证明所提算法能为新数据集推荐出适用的抽样方法，为后面的软件缺陷预测奠定了良好的基础.

为了证明抽样推荐算法的可行性和有效性，本文的训练集和测试集都是在NASA缺陷数据集中选取的，是因为这样能更容易地找到与测试集相似度高的训练集，不需要大量的缺陷数据集进行训练. 如果训练集从其他的缺陷数据集中选取，或者只选取与测试集相似度低的数据集进行训练，其推荐性能会下降，推荐效率会降低，但只要训练集达到一定的规模，同样可以为新的缺陷数据集推荐出性能良好的抽样方法，因此本文中抽样方法的排名结果不具有局限性. 软件缺陷数据集的数量是比较多的，比如常用的有NASA MDP，PROMISE和Eclipse等数据集，所以能找到足够数量的缺陷数据集进行训练，这样就能在很大程度上解决上述问题. 本文在算法1中使用预测准确率作为抽样方法排名的指标，还有一些其它的度量指标，比如AUC和F-Measure，使用其它的度量指标进行抽样方法排序是进一步的研究方向.

Figure (3) Table (9) Reference (20)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

Message Board

Sampling Recommendation Algorithm Based on Collaborative Filtering for Software Defect Data