-
大数据是指利用习惯应用程序收集的大量复杂信息的信息集[1-2],由于大数据具有大量隐藏的潜在信息,创造商业价值显著,目前已成为学术和企业关注的热点[3].大数据一般分为数据采集、数据清洗、数据存储和数据分析应用4个环节,数据清洗是数据分析应用的一种重要预处理过程[4].数据清洗是一项代价高昂的任务,避免将不完整、无关和无效的数据输入系统,它包含数据库模式的逻辑重组和数据输入应用程序的完整性约束[5].
数据清洗一直是一个长期存在的问题,随着对大量信息和海量数据的不断关注,数据清洗已经变成一个重要的研究方向[6].数据清洗的传统方法包括异常值检测、噪声消除、实体解析和插补[7].这些方法都依赖于完美信息语料库或外部参考表的可访问性,以便在解决混乱信息中的错误之前学习信息质量标准或示例,但对于海量数据是不可行的[8].近年来,对于大数据清洗方法的研究也越来越多.文献[9]提出了针对健康大数据的数据清洗方法,所提方法能够提高后续数据处理的性能;文献[10]提出一种任务合并的并行大数据清洗优化方法,合并冗余计算和利用同一输入文件的简单计算,能减少MapReduce的轮数从而减少系统运行时间,最终达到系统优化的目标.文献[11]提出一种有效的并行混合随机确定性分解算法,在每次迭代时,通过最小化原始非凸函数的凸替代来同时更新变量的子集.文献[12]提出了一种基于Spark框架的能源大数据清洗模型,通过聚类算法得到正常簇及其边界样本,并设计了基于边界样本的异常识别算法,通过指数加权移动平均数实现了异常数据修正.文献[13]提出基于Spark的大数据清洗框架,通过分布式计算能力将弹性分布式数据集封装成大数据清洗的任务单元,通过组合、串联成完整的大数据清洗流程,并给出多叉树优化方法,实现大数据清洗的优化过程.
目前,大数据清洗方法的错误数据识别准确率有待提高,本文在现有研究基础上提出一种新的大数据清洗方法,即自适应布谷鸟搜索算法和引力搜索算法的混合SACS-GS方法.该方法对布谷鸟算法进行改进,提出了两种自适应突变策略和自适应发现概率,避免种群早熟和提高物种多样性,通过与GS方法混合,实现高精度大数据清洗.最后,通过Spark框架下实现SACS-GS方法,减少大数据清洗时间.实验结果表明,SACS-GS方法能够提高大数据清洗的数据准确性,同时减少数据清洗时间.
Big Data Cleaning Method for Hybrid SACS-GS under Spark Framework
-
摘要: 提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-GS方法,并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法,给出两种改进的搜索策略,通过线性递减概率规则将两种策略结合起来,形成自适应搜索策略,避免种群早熟和提高收敛速度,然后引入自适应发现概率,提高种群的多样性. SACS算法混合GS算法得到SACS-GS方法,该方法通过引力搜索算法的局部搜索能力来确定自适应布谷鸟算法的全局范围,并找到使卵生长和成熟的最佳解决方案,有效地识别大数据中的错误数据.实验结果表明,SACS-GS方法具有较高的大数据异常检测精度,且精度高于其他现有方法,处理时间低于其他方法.Abstract: A hybrid method of self-adaptive cuckoo search (SACS) and Gravitational Search (GS) algorithm has been proposed in this paper, and a big data cleaning program of SACS-GS method in Spark framework has been given. Firstly, the adaptive cuckoo algorithm has been proposed, which gives two improved search strategies. By combining the two strategies with linear decreasing probability rules, the adaptive search strategy has been formed to avoid premature population and improve convergence speed. Then, the adaptive discovery probability has been introduced to improve the diversity of the population. SACS-GS method has been obtained by the hybrid GS algorithm of SACS algorithm, which determines the global range of the self-adaptive cuckoo algorithm by the local search ability of the gravitational search algorithm, and finds the best solution for egg growth and maturity, and effectively identify the error data in big data. The experimental results show that the SACS-GS method has high accuracy of big data anomaly detection and its accuracy is higher than other existing methods.
-
表 1 错误数据检测结果
表 2 不同数据清洗方法所用时间
s 数据清洗方法 1 G 2 G 3 G 4 G 5 G 传统清洗 5 808 20 160 37 912 62 570 95 067 任务合并 54 113 256 355 847 时间序列 484 1 680 3 159 5 214 7 922 相关矩阵 109 387 729 1 203 1 828 SACS-GS 45 108 247 357 432 -
[1] 郑子伟, 郑建秋.适用于大数据的遗传优化算法研究[J].西南师范大学学报(自然科学版), 2016, 41(12): 107-112. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xsxb.2016.12.019 [2] SIVARAJAH U, KAMAL M M, IRANI Z, et al. Critical Analysis of Big Data Challenges and Analytical Methods[J]. Journal of Business Research, 2017, 70: 263-286. doi: 10.1016/j.jbusres.2016.08.001 [3] THORSTAD R, WOLFF P. A Big Data Analysis of the Relationship Between Future Thinking and Decision-making[J]. Proceedings of the National Academy of Sciences of the United States of America, 2018, 115(8): 1740-1748. doi: 10.1073/pnas.1706589115 [4] 马平全, 宋凯, 纪建伟.基于N-Gram算法的数据清洗技术[J].沈阳工业大学学报(自然科学版), 2017, 39(1): 67-72. doi: http://d.old.wanfangdata.com.cn/Periodical/sygydxxb201701013 [5] CHU X, MORCOS J, ILYAS I F, et al. Katara: A Data Cleaning System Powered by Knowledge Bases and Crowdsourcing[C] //Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. Melboume: ACM, 2015. [6] ILYAS I F, CHU X. Trends in Cleaning Relational Data: Consistency and Deduplication[J]. Foundations and Trends© in Databases, 2015, 5(4): 281-393. doi: 10.1561/1900000045 [7] KOUKI P, PUJARA J, MARCUM C, et al. Collective Entity Resolution in Familial Networks[C]//2017 IEEE International Conference on Data Mining (ICDM). New Orleans: IEEE, 2017. [8] GUETA T, CARMEL Y. Quantifying the Value of User-level Data Cleaning for Big Data: a Case Study Using Mammal Distribution Models[J]. Ecological Informatics, 2016, 34: 139-145. doi: 10.1016/j.ecoinf.2016.06.001 [9] 陈永红, 廖欣, 郑欣, 等.面向健康大数据的数据清洗技术[J].现代计算机(专业版), 2017(17): 21-25. doi: http://d.old.wanfangdata.com.cn/Periodical/xdjsj-xby201717004 [10] 杨东华, 李宁宁, 王宏志, 等.基于任务合并的并行大数据清洗过程优化[J].计算机学报, 2016, 39(1): 97-108. doi: http://d.old.wanfangdata.com.cn/Periodical/jsjxb201601007 [11] DANESHMAND A, FACCHINEI F, KUNGURTSEV V, et al. Hybrid Random/Deterministic Parallel Algorithms for Convex and Nonconvex Big Data Optimization[J]. IEEE Transactions on Signal Processing, 2015, 63(15): 3914-3929. doi: 10.1109/TSP.2015.2436357 [12] 曲朝阳, 张艺竞, 王永文, 等.基于Spark框架的能源互联网电力能源大数据清洗模型[J].电测与仪表, 2018, 55(2): 39-44. doi: 10.3969/j.issn.1001-1390.2018.02.007 [13] 金翰伟.基于Spark的大数据清洗框架设计与实现[D].杭州: 浙江大学, 2016. [14] 严英杰, 盛戈皞, 陈玉峰, 等.基于时间序列分析的输变电设备状态大数据清洗方法[J].电力系统自动化, 2015, 39(7): 138-144. doi: http://d.old.wanfangdata.com.cn/Periodical/dlxtzdh201507022 [15] BUN J, BOUCHAUD J P, POTTERS M. Cleaning Large Correlation Matrices: Tools from Random Matrix Theory[J]. Physics Reports, 2017, 666: 1-109. doi: 10.1016/j.physrep.2016.10.005