基于Spark框架的大数据K-prototypes聚类算法

龚静

doi:10.13718/j.cnki.xsxb.2019.07.010

基于Spark框架的大数据K-prototypes聚类算法

龚静

铜仁学院大数据学院, 贵州铜仁 554300

基金项目: 贵州省教育厅普通高等学校创新人才团队建设项目（黔教合人才团队字[2015]67号）

详细信息

作者简介:
龚静(1974-), 女, 硕士, 教授, 主要从事计算机网络、数据挖掘及教育信息技术研究 .

中图分类号: TP311

K-prototypes Clustering Algorithm Based on Spark Framework for Big Data

Jing GONG

School of Data Science, Tongren University, Tongren Guizhou 554300, China

摘要: 大数据具有数据量大及混合类型的属性，基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制，导致这些方案不适合处理大数据.为了解决这个问题，该文提出一种新的基于Spark的k-prototypes聚类方法，该方法使用了重新聚集技术，利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明，该文方法可行，且提高了现有K-prototypes方法的效率.
- 大数据 /
- 混合数据 /
- K-prototypes /
- Spark框架
Abstract: Big data has a large amount of data and mixed types of attributes. The disadvantages of the current MapReduce-based K-prototypes parallel large-scale hybrid data plan are the limitations of time and memory, making these solutions unsuitable for processing big data. To solve this problem, a new Spark-based K-prototypes clustering method has been proposed in this paper. In this method, the re-aggregation technique and Spark's memory operations have been used to build large-scale mixed data groups. Experiments on simulated and actual datasets show that this method is feasible and improves the efficiency of the existing K-prototypes method.
- big data /
- mixed data /
- K-prototypes /
- spark framework .

图 1 S-KP的Speedup与机器数量的关系

下载: 全尺寸图片幻灯片

图 2 S-KP运行时间与数据集大小的关系

下载: 全尺寸图片幻灯片

算法1 本文方法伪代码

输入：数据集X，map任务数m，聚类数量k；
输出：最终聚类中心C^f
begin
  textfile (X，m)→X-RDD
  foreach X_i∈X-RDD do
    X-RDD.MapPartition(X_i)
      在X_i上运行K-prototypes算法以获得一组k加权中心C_i^w.
      输出＜1/C_i^w＞作为map任务的输出
  ReduceByKey(C^w)
  在C^w上运行K-prototypes算法得到一组最终中心C^f
  输出＜1/C^f＞作为reduce阶段的输出
end

下载: 导出CSV

算法2 K-prototypes算法步骤
输入：数据集X，聚类数量k；输出：最终聚类中心
begin 1.从X中随机选择k个初始聚类中心. 2.将X中的每个数据点分配给最近的中使用等式(2)计算距离. 3.使用等式(3)和(4)更新聚类中心. 4.如果新的聚类中心和以前的聚类中心相同，则终止；否则，返回 end

下载: 导出CSV

表 1 模拟数据集实验对比结果

数据集	k	方法	运行时间/s	SSE
Sim1	50	K-prototypes	1 268.24	315.88
		KP-MR	212.57	315.88
		S-KP	25.98	319.44
Sim2	50	K-prototypes	2 365.10	631.74
		KP-MR	394.11	631.74
		S-KP	54.17	637.58
Sim3	50	K-prototypes	13 698.84	3 158.66
		KP-MR	2 285.65	3 158.66
		S-KP	203.47	3174.06
Sim4	50	K-prototypes	26 874.12	6 124.12
		KP-MR	4 487.01	6 124.12
		S-KP	369.45	6 360.88

下载: 导出CSV

表 2 KDD数据集实验对比结果

k	方法	运行时间/s	SSE
10	K-prototypes	984.95	663.46
	KP-MR	246.37	663.46
	S-KP	23.31	992.23
50	K-prototypes	1 126.63	540.27
	KP-MR	280.74	540.27
	S-KP	25.46	752.35
100	K-prototypes	1 256.14	472.9
	KP-MR	311.96	472.9
	S-KP	27.13	700.35

下载: 导出CSV

表 3 Poker数据集实验对比结果

k	方法	运行时间/s	SSE
10	K-prototypes	127.9	1.39
	KP-MR	31.97	1.39
	S-KP	4.17	1.44
50	K-prototypes	146.65	1.08
	KP-MR	36.66	1.08
	S-KP	5.75	1.1
100	K-prototypes	170.07	0.97
	KP-MR	42.51	0.97
	S-KP	6.11	0.99

下载: 导出CSV

[1]	车宝真, 蔚承建, 万夕里, 等.基于Spark平台的心电大数据分析处理[J].计算机工程与设计, 2018, 39(1):108-114. doi: http://d.old.wanfangdata.com.cn/Periodical/jsjgcysj201801020
[2]	郑子伟, 郑建秋.适用于大数据的遗传优化算法研究[J].西南师范大学学报(自然科学版), 2016, 41(12):107-112. doi: http://xbgjxt.swu.edu.cn/jsuns/jscnuhhse/ch/reader/view_abstract.aspx?file_no=x201612019&flag=1
[3]	张顺龙, 库涛, 周浩.针对多聚类中心大数据集的加速K-means聚类算法[J].计算机应用研究, 2016, 33(2):413-416. doi: 10.3969/j.issn.1001-3695.2016.02.021
[4]	海沫.大数据聚类算法综述[J].计算机科学, 2016, 43(S1):380-383. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkx2016z1090
[5]	AYECH M W, ZIOU D.Segmentation of Terahertz Imaging Using K-Means Clustering Based on Ranked Set Sampling[J]. Expert Systems with Applications, 2015, 42(6):2959-2974. doi: 10.1016/j.eswa.2014.11.050
[6]	YIN S, HUANG Z H.Performance Monitoring for Vehicle Suspension System Via Fuzzy Positivistic C-Means Clustering Based on Accelerometer Measurements[J].ASME Transactions on Mechatronics, 2015, 20(5):2613-2620. doi: 10.1109/TMECH.2014.2358674
[7]	何育朋.混合的大规模数据库中数值型数据聚类算法研究[J].微电子学与计算机, 2017, 34(2):119-122, 127. doi: http://d.old.wanfangdata.com.cn/Periodical/wdzxyjsj201702026
[8]	doi: http://d.old.wanfangdata.com.cn/Periodical/gpxygpfx201207044 JANG H J, KIM B, KIM J, et al.Correction:An Efficient Grid-Based K-Prototypes Algorithm for Sustainable Decision Making Using Spatial Objects[J].Sustainability, 2018, 10(8):1-20.
[9]	JI J C, BAI T, ZHOU C G, et al.An Improved K-Prototypes Clustering Algorithm for Mixed Numeric and Categorical Data[J].Neurocomputing, 2013, 120:590-596. doi: 10.1016/j.neucom.2013.04.011
[10]	LUDWIG S A.MapReduce-Based Fuzzy C-Means Clustering Algorithm:Implementation and Scalability[J].International Journal of Machine Learning and Cybernetics, 2015, 6(6):923-934. doi: 10.1007/s13042-015-0367-0
[11]	SHAHRIVARI S, JALILI S.Single-Pass and Linear-Time K-Means Clustering Based on MapReduce[J].Information Systems, 2016, 60:1-12. doi: 10.1016/j.is.2016.02.007
[12]	KIM Y, SHIM K, KIM M S, et al.DBCURE-MR:An Efficient Density-Based Clustering Algorithm for Large Data Using MapReduce[J].Information Systems, 2014, 42:15-35. doi: 10.1016/j.is.2013.11.002
[13]	BEN HAJ KACEM M A, BEN N'CIR C E, ESSOUSSI N.MapReduce-Based K-Prototypes Clustering Method for Big Data[C]//2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). Paris: Campus des Cordeliers, 2015.

图( 2) 表( 5)

计量

文章访问数: 1039
HTML全文浏览数: 880
PDF下载数: 88
施引文献: 0

全文HTML

随着互联网技术的发展，各个领域海量数据已经成为常态，分析大数据的方法要求越来越高，因此使用机器学习技术探索大规模混合数据成为大数据分析中的一个重要挑战^[1-2].鉴于大数据通常由混合类型的属性来描述，需要预处理步骤将数据转换为单一类型，因为大多数提出的聚类方法仅处理数值属性或分类属性.但是，转换策略通常耗时且会导致信息丢失，从而导致聚类结果不准确^[3-4]，传统聚类算法有K-means和C-means聚类算法等^[5-6].

对于大数据处理方法，聚类方法已经得到研究^[7]，K-prototypes聚类方法^[8]中集成了K-means和K-modes方法来聚类数值和分类数据.针对K-prototypes聚类方法的不足，改进K-prototypes聚类方法已经被提出用来处理混合类型的数据，如用于表示群集中分类属性原型的分布式质心概念的引入^[9].虽然K-prototypes方法是混合数据执行聚类最流行的方法之一，但该方法还是无法对大规模混合数据进行扩展.

为了处理大规模的数据，现有方法都是在并行框架上进行聚类，大多数方法都使用MapReduce框架，例如MapReduce框架实现的模糊C-means方法^[10]、基于单通道和线性时间MapReduce的k-means方法^[11]和基于密度聚类与MapReduce的并行化方法^[12].虽然以上方法为用户提供了通过MapReduce框架对大规模数据的有效分析，但它们不能支持混合类型的数据，并且仅限于数字属性.因此，通过MapReduce框架下的K-prototypes方法能够并行化处理大规模混合数据^[13]，然而MapReduce框架与K-prototypes方法具有一个缺陷，在每次迭代过程中都会发生许多I/ O磁盘操作，这会减慢运行时间.

为了解决这个问题，本文提出一种新的基于Spark框架的K-prototypes聚类方法，称为S-KP.本文算法利用Spark提供的灵活性，通过减少内存操作来解决现有MapReduce方案的消耗时间.实验表明，所提出的方法是可扩展的，并且优于现有方法的效率.

1. 大数据技术与K-prototypes聚类方法

1.1. 大数据技术

MapReduce是一个并行编程框架，旨在处理机群聚类中的大规模数据，其特点是对程序员高度透明，允许以简单和舒适的方式并行化算法，要并行化的算法只需要指定2个阶段即map和reduce.每一个阶段中都有＜key/value＞作为输入和输出，map阶段并行采用每个＜key/value＞对并生成一组中间＜key'/value'＞对，然后该框架将与相同中间＜key/value＞对相关联的所有中间值与列表(称为shuffle阶段)进行分组，reduce阶段将此列表作为生成最终值的输入，MapReduce的输入和输出存储在一个关联的分布式文件系统中，该系统可以从使用聚类的任何一台机器访问.根据可用的聚类体系结构，MapReduce框架的不同实现是可能的.

MapReduce可以在Apache Hadoop上实现，Apache Hadoop是用于商业硬件上大数据处理和存储最受欢迎的MapReduce实现，尽管Hadoop MapReduce非常流行，但在迭代算法中存在问题.

Apache Spark是一种新的大数据处理框架，旨在解决Hadoop的缺点.该框架提出了一套超越标准MapReduce的内存转换，目的是在分布式环境中更快地处理数据，速度比Hadoop快100倍. Spark基于弹性分布式数据集(RDD)，这是一种用于以透明方式执行并行计算的特殊类型的数据结构.这些结构持久存储、重用和缓存结果.此外，还管理分区以优化数据放置并使用一系列广泛的转换操作数据，Spark框架的这些功能使其成为大数据处理的有用框架.

1.2. K-prototypes聚类方法

给定包含n个数据点的数据集X={x₁，x₂，…，x_n}，用数据属性m_r和分类属性m_t来描述. K-prototypes聚类的目的是通过最小化目标函数来找到k个聚类.

其中，u_ij∈{0，1}是分区矩阵U_n*k的元素，表示数据点i在簇j中的隶属度，c_j∈C={c₁，…，c_k}为聚类j的中心，d(x_i，c_j)是不相似度度量，定义为

x_ir表示数字属性r的值，x_it表示数据点i的分类属性t的值，c_jr表示数值属性r和簇j的平均值，计算得

其中，|c_j|表示分配给簇j的数据点数量，c_jt表示分类属性t和簇j的最常见值，计算方式为

其中，$f\left(a_{t}^{h}\right) \geqslant f\left(a_{t}^{z}\right), \forall z, 1 \leqslant z \leqslant m_{c}$，对于$a_{t}^{z} \in\left\{a_{t}^{1}, \cdots a_{t}^{m_{c}}\right\}$是分类值，z和m_c是分类属性t的类别数量.$f\left(a_{t}^{z}\right)=\left|\left\{x_{i t}=a_{t}^{z} | p_{i j}=1\right\}\right|$是属性值a_t^z的频率计数，对于分类属性，当p=q时，δ(p，q)=0，p≠q时，δ(p，q)=1.

2. 基于Spark的大数据K-prototypes算法

本文提出的处理混合大规模数据的方法由Spark框架下的K-prototypes算法并行化实现.首先，输入数据集被分成m个块，然后每个块在map阶段被独立处理，从每个块中提取中间中心，之后reduce阶段处理该组的中间中心以便生成最终聚类中心，这一步被称为重新聚集技术.

为了定义并行实现，有必要定义应用于每个块上的算法以及应用于该组中间中心的算法.对于map和reduce这2个阶段使用K-prototypes算法，对于每个块执行K-prototypes算法并提取k个中心.因此，如果有m块，K-prototypes算法在每个块上都会有一组k×m中心作为中间集合.

为了获得好的质量，记录每个提取中心的分配数据点数量，即从每个块、K中心和分配给每个中心的数据点数量中提取.分配给每个聚类中心的数据点数表示该中心的重要性.因此，必须扩展k-prototypes算法，在对中间中心集合进行聚类时考虑加权数据点.为了考虑加权数据点必须改变中心更新(公式(3)和公式(4))，将w_i作为数据点x_i的权重，则最终簇的中心使用以下方程计算数值和分类属性.

其中，$\forall z, 1 \leqslant z \leqslant m_{c}$.

通过Spark框架并行实现K-prototypes算法非常简单.作为输入，从HDFS接收输入数据集X的路径，同时还处理组块数m，组数k.首先，用m块组成的输入数据集X创建一个RDD对象，因此使用Spark框架下的textfile(.)操作.之后，每个map任务选择一大块数据集，在该块数据集上执行K-prototypes算法，并发出提取的中间中心及其权重作为输出.在Spark实现中，使用MapPartition(.)转换，它分别在RDD的每个块上运行k-prototypes算法.当map阶段完成后，一组中间加权中心作为map阶段的输出，并且这组中心被输入到单个reduce阶段，reduce阶段采用中间中心集合及其权重，再次执行k-prototypes算法并返回最终中心作为输出.为了简化这个想法的实现，使用Spark的ReduceByKey(.)转换，当生成最终聚类中心后，将每个数据点分配到最近的聚类中心.

设X-RDD为输入数据集的RDD对象，X_i是与map任务i相关联的分区，C^w={C₁^w，…，C_m^w}为加权中间中心的集合，其中C_i^w是从组块i中提取的一组加权中间中心，C^f为最后聚类中心的集合.算法1描述了本文方法的伪代码以及Spark中使用函数的具体步骤.

算法2中给出了K-prototypes算法的具体步骤.

4. 结论

本文提出了一种新的基于Spark框架的K-prototypes聚类方法，在处理大规模混合数据时，K-prototypes算法有2个主要问题：运行时间和内存消耗. Apache Spark的引入为k-prototypes算法的并行化提供了一个简单、透明和高效的环境.实验结果表明，本文方法是可扩展的，可以提高现有K-prototypes方法的效率.未来的工作是通过使用降维技术，来处理具有大量特征的大规模混合数据.

参考文献 (13)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于Spark框架的大数据K-prototypes聚类算法

铜仁学院大数据学院, 贵州铜仁 554300

作者简介:
龚静(1974-), 女, 硕士, 教授, 主要从事计算机网络、数据挖掘及教育信息技术研究 .

K-prototypes Clustering Algorithm Based on Spark Framework for Big Data

School of Data Science, Tongren University, Tongren Guizhou 554300, China

计量

基于Spark框架的大数据K-prototypes聚类算法

作者简介: 龚静(1974-), 女, 硕士, 教授, 主要从事计算机网络、数据挖掘及教育信息技术研究
铜仁学院大数据学院, 贵州铜仁 554300

English Abstract

K-prototypes Clustering Algorithm Based on Spark Framework for Big Data

全文HTML

1.1. 大数据技术

1.2. K-prototypes聚类方法

3.1. 实验数据集及评价指标

3.2. 实验结果分析

目录

留言板

基于Spark框架的大数据K-prototypes聚类算法

铜仁学院 大数据学院, 贵州 铜仁 554300

作者简介: 龚静(1974-), 女, 硕士, 教授, 主要从事计算机网络、数据挖掘及教育信息技术研究 .

K-prototypes Clustering Algorithm Based on Spark Framework for Big Data

School of Data Science, Tongren University, Tongren Guizhou 554300, China

计量

出版历程

基于Spark框架的大数据K-prototypes聚类算法

作者简介: 龚静(1974-), 女, 硕士, 教授, 主要从事计算机网络、数据挖掘及教育信息技术研究 铜仁学院 大数据学院, 贵州 铜仁 554300

English Abstract

K-prototypes Clustering Algorithm Based on Spark Framework for Big Data

全文HTML

1.1. 大数据技术

1.2. K-prototypes聚类方法

3.1. 实验数据集及评价指标

3.2. 实验结果分析

目录

铜仁学院大数据学院, 贵州铜仁 554300

作者简介:
龚静(1974-), 女, 硕士, 教授, 主要从事计算机网络、数据挖掘及教育信息技术研究 .

作者简介: 龚静(1974-), 女, 硕士, 教授, 主要从事计算机网络、数据挖掘及教育信息技术研究
铜仁学院大数据学院, 贵州铜仁 554300