Spark框架下混合SACS-GS的大数据清洗方法

何翼; 田华

doi:10.13718/j.cnki.xsxb.2020.07.016

Spark框架下混合SACS-GS的大数据清洗方法

何翼,
田华

铜仁学院大数据学院，贵州铜仁 554300

基金项目: 贵州省教育厅创新群体重大研究项目(黔教合KY字[2016]051)

详细信息

作者简介:
何翼(1981-)，女，硕士，副教授，主要从事软件工程及现代教育技术研究 .

中图分类号: TP311

Big Data Cleaning Method for Hybrid SACS-GS under Spark Framework

Yi HE,
Hua TIAN

School of Big Data, Tongren University, Tongren Guizhou 554300, China

摘要: 提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search，SACS)和引力搜索(Gravitational Search，GS)算法的混合SACS-GS方法，并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法，给出两种改进的搜索策略，通过线性递减概率规则将两种策略结合起来，形成自适应搜索策略，避免种群早熟和提高收敛速度，然后引入自适应发现概率，提高种群的多样性. SACS算法混合GS算法得到SACS-GS方法，该方法通过引力搜索算法的局部搜索能力来确定自适应布谷鸟算法的全局范围，并找到使卵生长和成熟的最佳解决方案，有效地识别大数据中的错误数据.实验结果表明，SACS-GS方法具有较高的大数据异常检测精度，且精度高于其他现有方法，处理时间低于其他方法.
- 大数据清洗 /
- Spark框架 /
- 自适应布谷鸟算法 /
- 引力搜索算法 /
- 异常检测
Abstract: A hybrid method of self-adaptive cuckoo search (SACS) and Gravitational Search (GS) algorithm has been proposed in this paper, and a big data cleaning program of SACS-GS method in Spark framework has been given. Firstly, the adaptive cuckoo algorithm has been proposed, which gives two improved search strategies. By combining the two strategies with linear decreasing probability rules, the adaptive search strategy has been formed to avoid premature population and improve convergence speed. Then, the adaptive discovery probability has been introduced to improve the diversity of the population. SACS-GS method has been obtained by the hybrid GS algorithm of SACS algorithm, which determines the global range of the self-adaptive cuckoo algorithm by the local search ability of the gravitational search algorithm, and finds the best solution for egg growth and maturity, and effectively identify the error data in big data. The experimental results show that the SACS-GS method has high accuracy of big data anomaly detection and its accuracy is higher than other existing methods.
- big data cleaning /
- spark framework /
- self-adaptive cuckoo algorithm /
- gravitational search algorithm /
- anomaly detection .

图 1 CS算法的步骤

下载: 全尺寸图片幻灯片

图 2 SACS-GS算法的流程

下载: 全尺寸图片幻灯片

图 3 Spark框架下SACS-GS大数据清洗方法的实现

下载: 全尺寸图片幻灯片

图 4 大数据异常检测准确率

下载: 全尺寸图片幻灯片

表 1 错误数据检测结果

方法	查找错误数	实际错误数	检测准确率/%
文献[10]	146	151	96.69
文献[14]	140	151	92.72
文献[15]	143	151	94.70
ASCS-GS	150	151	99.34

下载: 导出CSV

表 2 不同数据清洗方法所用时间 s

数据清洗方法	1 G	2 G	3 G	4 G	5 G
传统清洗	5 808	20 160	37 912	62 570	95 067
任务合并	54	113	256	355	847
时间序列	484	1 680	3 159	5 214	7 922
相关矩阵	109	387	729	1 203	1 828
SACS-GS	45	108	247	357	432

下载: 导出CSV

[1]	郑子伟, 郑建秋.适用于大数据的遗传优化算法研究[J].西南师范大学学报(自然科学版), 2016, 41(12): 107-112. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xsxb.2016.12.019
[2]	SIVARAJAH U, KAMAL M M, IRANI Z, et al. Critical Analysis of Big Data Challenges and Analytical Methods[J]. Journal of Business Research, 2017, 70: 263-286. doi: 10.1016/j.jbusres.2016.08.001
[3]	THORSTAD R, WOLFF P. A Big Data Analysis of the Relationship Between Future Thinking and Decision-making[J]. Proceedings of the National Academy of Sciences of the United States of America, 2018, 115(8): 1740-1748. doi: 10.1073/pnas.1706589115
[4]	马平全, 宋凯, 纪建伟.基于N-Gram算法的数据清洗技术[J].沈阳工业大学学报(自然科学版), 2017, 39(1): 67-72. doi: http://d.old.wanfangdata.com.cn/Periodical/sygydxxb201701013
[5]	CHU X, MORCOS J, ILYAS I F, et al. Katara: A Data Cleaning System Powered by Knowledge Bases and Crowdsourcing[C] //Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. Melboume: ACM, 2015.
[6]	ILYAS I F, CHU X. Trends in Cleaning Relational Data: Consistency and Deduplication[J]. Foundations and Trends© in Databases, 2015, 5(4): 281-393. doi: 10.1561/1900000045
[7]	KOUKI P, PUJARA J, MARCUM C, et al. Collective Entity Resolution in Familial Networks[C]//2017 IEEE International Conference on Data Mining (ICDM). New Orleans: IEEE, 2017.
[8]	GUETA T, CARMEL Y. Quantifying the Value of User-level Data Cleaning for Big Data: a Case Study Using Mammal Distribution Models[J]. Ecological Informatics, 2016, 34: 139-145. doi: 10.1016/j.ecoinf.2016.06.001
[9]	陈永红, 廖欣, 郑欣, 等.面向健康大数据的数据清洗技术[J].现代计算机(专业版), 2017(17): 21-25. doi: http://d.old.wanfangdata.com.cn/Periodical/xdjsj-xby201717004
[10]	杨东华, 李宁宁, 王宏志, 等.基于任务合并的并行大数据清洗过程优化[J].计算机学报, 2016, 39(1): 97-108. doi: http://d.old.wanfangdata.com.cn/Periodical/jsjxb201601007
[11]	DANESHMAND A, FACCHINEI F, KUNGURTSEV V, et al. Hybrid Random/Deterministic Parallel Algorithms for Convex and Nonconvex Big Data Optimization[J]. IEEE Transactions on Signal Processing, 2015, 63(15): 3914-3929. doi: 10.1109/TSP.2015.2436357
[12]	曲朝阳, 张艺竞, 王永文, 等.基于Spark框架的能源互联网电力能源大数据清洗模型[J].电测与仪表, 2018, 55(2): 39-44. doi: 10.3969/j.issn.1001-1390.2018.02.007
[13]	金翰伟.基于Spark的大数据清洗框架设计与实现[D].杭州: 浙江大学, 2016.
[14]	严英杰, 盛戈皞, 陈玉峰, 等.基于时间序列分析的输变电设备状态大数据清洗方法[J].电力系统自动化, 2015, 39(7): 138-144. doi: http://d.old.wanfangdata.com.cn/Periodical/dlxtzdh201507022
[15]	BUN J, BOUCHAUD J P, POTTERS M. Cleaning Large Correlation Matrices: Tools from Random Matrix Theory[J]. Physics Reports, 2017, 666: 1-109. doi: 10.1016/j.physrep.2016.10.005

图( 4) 表( 2)

计量

文章访问数: 1907
HTML全文浏览数: 1907
PDF下载数: 6
施引文献: 0

全文HTML

大数据是指利用习惯应用程序收集的大量复杂信息的信息集^[1-2]，由于大数据具有大量隐藏的潜在信息，创造商业价值显著，目前已成为学术和企业关注的热点^[3].大数据一般分为数据采集、数据清洗、数据存储和数据分析应用4个环节，数据清洗是数据分析应用的一种重要预处理过程^[4].数据清洗是一项代价高昂的任务，避免将不完整、无关和无效的数据输入系统，它包含数据库模式的逻辑重组和数据输入应用程序的完整性约束^[5].

数据清洗一直是一个长期存在的问题，随着对大量信息和海量数据的不断关注，数据清洗已经变成一个重要的研究方向^[6].数据清洗的传统方法包括异常值检测、噪声消除、实体解析和插补^[7].这些方法都依赖于完美信息语料库或外部参考表的可访问性，以便在解决混乱信息中的错误之前学习信息质量标准或示例，但对于海量数据是不可行的^[8].近年来，对于大数据清洗方法的研究也越来越多.文献[9]提出了针对健康大数据的数据清洗方法，所提方法能够提高后续数据处理的性能；文献[10]提出一种任务合并的并行大数据清洗优化方法，合并冗余计算和利用同一输入文件的简单计算，能减少MapReduce的轮数从而减少系统运行时间，最终达到系统优化的目标.文献[11]提出一种有效的并行混合随机确定性分解算法，在每次迭代时，通过最小化原始非凸函数的凸替代来同时更新变量的子集.文献[12]提出了一种基于Spark框架的能源大数据清洗模型，通过聚类算法得到正常簇及其边界样本，并设计了基于边界样本的异常识别算法，通过指数加权移动平均数实现了异常数据修正.文献[13]提出基于Spark的大数据清洗框架，通过分布式计算能力将弹性分布式数据集封装成大数据清洗的任务单元，通过组合、串联成完整的大数据清洗流程，并给出多叉树优化方法，实现大数据清洗的优化过程.

目前，大数据清洗方法的错误数据识别准确率有待提高，本文在现有研究基础上提出一种新的大数据清洗方法，即自适应布谷鸟搜索算法和引力搜索算法的混合SACS-GS方法.该方法对布谷鸟算法进行改进，提出了两种自适应突变策略和自适应发现概率，避免种群早熟和提高物种多样性，通过与GS方法混合，实现高精度大数据清洗.最后，通过Spark框架下实现SACS-GS方法，减少大数据清洗时间.实验结果表明，SACS-GS方法能够提高大数据清洗的数据准确性，同时减少数据清洗时间.

1. GS算法

GS算法是根据质量相互作用和引力定律来定位的随机搜索算法，该算法通过重力和引力的作用在搜索对象中得到最优解决方案.首先统计系统的初始位置P_i=(P_i¹…P_i^d…P_i^m)，P_i^d表示第i个对象的d维度的位置，每一个位置都是潜在的解决方案，m表示搜索空间的维数，i=1，2，…，M，M表示空间维度.对象i和j的质量分别是M_i和M_j，则在时间间隔t内，两者的引力可表示为

其中，ξ表示一个小常数，R_ij(t)表示对象i和j之间的海明距离，G(t)表示引力常数，$ G\left( t \right)={{G}_{0}}\cdot {{e}^{-\alpha \frac{q}{{{q}_{\text{max}}}}}} $，G₀为引力初始值，α为下降系数，q为循环迭代次数，q_max为最大迭代次数.

$ F_{i}^{d}\left( t \right)=\sum\limits_{j\in {{k}_{\text{best}}}, j\ne i}^{M}{\text{ }rand\left( j \right)\cdot F_{ij}^{d}\left( t \right)} $表示对象i的引力.其中，rand(j)表示随机从[0, 1]中取值，k_best表示具有最佳适应值和最大质量的对象集合.由此可以计算在d维度中第i个对象的加速度a_i^d(t)，可表示为$ {{a}_{i}}^{d}(t)=\frac{{{F}_{i}}^{d}\left( t \right)}{{{M}_{i}}\left( t \right)}, {{M}_{i}}\left( t \right) $表示第i个对象的质量.

因此，t+1时的速度和位置可表示为

v_i^d(t)表示对象i的速度，P_i^d(t)表示对象i的位置.

4. 结语

为了提高采集大数据的准确性，本文提出了一种高精度清洗大数据分析的SACS-GS方法，并给出Spark框架下数据清洗方案.所提SACS-GS方法通过GS算法的局部搜索能力来确定SACS的全局范围，使用自适应突变策略和自适应发现概率实现全局范围内寻找产卵的区域，并找到使卵生长和成熟的最佳解决方案，高精度实现大数据的异常检测.实验结果表明，SACS-GS方法在检测误差方面比现有方法更有效和准确.另外，SACS-GS方法清洗数据用时最少，说明所提方法的有效性.

参考文献 (15)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

Spark框架下混合SACS-GS的大数据清洗方法

铜仁学院大数据学院，贵州铜仁 554300

作者简介:
何翼(1981-)，女，硕士，副教授，主要从事软件工程及现代教育技术研究 .

Big Data Cleaning Method for Hybrid SACS-GS under Spark Framework

School of Big Data, Tongren University, Tongren Guizhou 554300, China

计量

Spark框架下混合SACS-GS的大数据清洗方法

作者简介: 何翼(1981-)，女，硕士，副教授，主要从事软件工程及现代教育技术研究
铜仁学院大数据学院，贵州铜仁 554300

English Abstract

Big Data Cleaning Method for Hybrid SACS-GS under Spark Framework

全文HTML

2.1. SACS算法

2.2. SACS-GS的大数据清洗方法

2.3. Spark框架下大数据清洗方案

目录

留言板

Spark框架下混合SACS-GS的大数据清洗方法

铜仁学院 大数据学院，贵州 铜仁 554300

作者简介: 何翼(1981-)，女，硕士，副教授，主要从事软件工程及现代教育技术研究 .

Big Data Cleaning Method for Hybrid SACS-GS under Spark Framework

School of Big Data, Tongren University, Tongren Guizhou 554300, China

计量

出版历程

Spark框架下混合SACS-GS的大数据清洗方法

作者简介: 何翼(1981-)，女，硕士，副教授，主要从事软件工程及现代教育技术研究 铜仁学院 大数据学院，贵州 铜仁 554300

English Abstract

Big Data Cleaning Method for Hybrid SACS-GS under Spark Framework

全文HTML

2.1. SACS算法

2.2. SACS-GS的大数据清洗方法

2.3. Spark框架下大数据清洗方案

目录

铜仁学院大数据学院，贵州铜仁 554300

作者简介:
何翼(1981-)，女，硕士，副教授，主要从事软件工程及现代教育技术研究 .

作者简介: 何翼(1981-)，女，硕士，副教授，主要从事软件工程及现代教育技术研究
铜仁学院大数据学院，贵州铜仁 554300