A Neighborhood Granular Spectral Clustering Method

HE Yuhao; CHEN Yingyue; ZENG Gaofa; LIU Peiqian

doi:10.13718/j.cnki.xdzk.2024.05.001

2024 Volume 46 Issue 5

Article Contents

Previous Article Next Article

HE Yuhao, CHEN Yingyue, ZENG Gaofa, et al. A Neighborhood Granular Spectral Clustering Method[J]. Journal of Southwest University Natural Science Edition, 2024, 46(5): 2-10. doi: 10.13718/j.cnki.xdzk.2024.05.001

Citation:

HE Yuhao, CHEN Yingyue, ZENG Gaofa, et al. A Neighborhood Granular Spectral Clustering Method[J]. Journal of Southwest University Natural Science Edition, 2024, 46(5): 2-10. doi: 10.13718/j.cnki.xdzk.2024.05.001

A Neighborhood Granular Spectral Clustering Method

1.
College of Computer and Information Engineering, Xiamen University of Technology, Xiamen Fujian 361024, China
2.
Zhixiang Intelligent Technology Co. Ltd., Xiamen Fujian 361000, China
3.
School of Economics and Management, Xiamen University of Technology, Xiamen Fujian 361024, China

More Information

Received Date: 29/05/2023
Available Online: 20/05/2024
MSC: TP391

Abstract

Spectral clustering is an unsupervised learning clustering method, which has the advantages of convergence to the global optimum and is applicable to arbitrary shape sample space. However, the similarity matrix constructed by traditional methods can not reflect the approximate relation between data sometimes, so the clustering results are not good. Granular computing can solve this problem well. By granulating the data in the neighborhood and re-measuring the approximate relation between the data from the perspective of granules, a spectral clustering method based on neighborhood granules is proposed. Firstly, the single attribute of the sample was formed into the neighborhood granules by the way of neighborhood granulation, and then the granule vector was constructed by combining the granules belonging to the same sample. By using two kinds of neighborhood granule distance formula defined, the constructed grain vector was measured by distance, and the radial basis function was used to generate a similar matrix for spectral clustering. Finally, the performance of the spectral clustering algorithm combined with neighborhood granules was tested using the UCI datasets for validation. The algorithm's performance was evaluated in two aspects: neighborhood parameters and distance measurement methods of neighborhood granule vectors. The results were compared with those of traditional clustering algorithms. The experimental results showed that the similarity matrix constructed using neighborhood granulation is feasible and effective for spectral clustering.
- granular computing,
- spectral clustering,
- clustering,
- neighborhood,
- granule vectors

References

[1]	ZADEH L A. Toward a Theory of Fuzzy Information Granulation and Its Centrality in Human Reasoning and Fuzzy Logic[J]. Fuzzy Sets and Systems, 1997, 90(2): 111-127. doi: 10.1016/S0165-0114(97)00077-8 CrossRef Google Scholar
[2]	LIN T Y. Data Mining and Machine Oriented Modeling: a Granular Computing Approach[J]. Applied Intelligence, 2000, 13(2): 113-124. doi: 10.1023/A:1008384328214 CrossRef Google Scholar
[3]	YAO Y Y, YAO B X. Covering Based Rough Set Approximations[J]. Information Sciences, 2012, 200: 91-107. doi: 10.1016/j.ins.2012.02.065 CrossRef Google Scholar
[4]	苗夺谦, 张清华, 钱宇华, 等. 从人类智能到机器实现模型——粒计算理论与方法[J]. 智能系统学报, 2016, 11(6): 743-757. Google Scholar
[5]	RUAN J H, WANG X P, SHI Y. Developing Fast Predictors for Large-Scale Time Series Using Fuzzy Granular Support Vector Machines[J]. Applied Soft Computing, 2013, 13(9): 3981-4000. doi: 10.1016/j.asoc.2012.09.005 CrossRef Google Scholar
[6]	朱鹏飞, 胡清华, 于达仁. 基于随机化属性选择和邻域覆盖约简的集成学习[J]. 电子学报, 2012, 40(2): 273-279. Google Scholar
[7]	段洁, 胡清华, 张灵均, 等. 基于邻域粗糙集的多标记分类特征选择算法[J]. 计算机研究与发展, 2015, 52(1): 56-65. Google Scholar
[8]	WANG C Z, HU Q H, WANG X Z, et al. Feature Selection Based on Neighborhood Discrimination Index[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(7): 2986-2999. Google Scholar
[9]	章永来, 周耀鉴. 聚类算法综述[J]. 计算机应用, 2019, 39(7): 1869-1882. Google Scholar
[10]	陶莹, 杨锋, 刘洋, 等. K均值聚类算法的研究与优化[J]. 计算机技术与发展, 2018, 28(6): 90-92. Google Scholar
[11]	SINAGA K P, YANG M S. Unsupervised K-Means Clustering Algorithm[J]. IEEE Access, 2020, 8: 80716-80727. doi: 10.1109/ACCESS.2020.2988796 CrossRef Google Scholar
[12]	陈叶旺, 申莲莲, 钟才明, 等. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394. Google Scholar
[13]	李文杰, 闫世强, 蒋莹, 等. 自适应确定DBSCAN算法参数的算法研究[J]. 计算机工程与应用, 2019, 55(5): 1-7, 148. Google Scholar
[14]	王红, 葛丽娜, 王苏青, 等. 基于OPTICS聚类的差分隐私保护算法的改进[J]. 计算机应用, 2018, 38(1): 73-78. Google Scholar
[15]	孙璐, 梁永全. 融合网格划分和DBSCAN的改进聚类算法[J]. 计算机工程与应用, 2022, 58(14): 73-79. Google Scholar
[16]	RODRIGUEZ A, LAIO A. Clustering by Fast Search and Find of Density Peaks[J]. Science, 2014, 344(6191): 1492-1496. doi: 10.1126/science.1242072 CrossRef Google Scholar
[17]	汤峥, 宋余庆, 刘哲. 基于粒子群优化和EM算法的图像聚类研究[J]. 小型微型计算机系统, 2015, 36(7): 1602-1606. Google Scholar
[18]	张东月, 倪巍伟, 张森, 等. 一种基于本地化差分隐私的网格聚类方法[J]. 计算机学报, 2023, 46(2): 422-435. Google Scholar
[19]	COHEN-ADDAD V, KANADE V, MALLMANN-TRENN F, et al. Hierarchical Clustering: Objective Functions and Algorithms[M] //Proceedings of the Twenty-Ninth Annual ACM-SIAM Symposium on Discrete Algorithms. Philadelphia, PA: Society for Industrial and Applied Mathematics, 2018: 378-397. Google Scholar
[20]	白璐, 赵鑫, 孔钰婷, 等. 谱聚类算法研究综述[J]. 计算机工程与应用, 2021, 57(14): 15-26. Google Scholar
[21]	孔万增, 孙志海, 杨灿, 等. 基于本征间隙与正交特征向量的自动谱聚类[J]. 电子学报, 2010, 38(8): 1880-1885, 1891. Google Scholar
[22]	CHEN X J, HONG W J, NIE F P, et al. Spectral Clustering of Large-Scale Data by Directly Solving Normalized Cut[C] //Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London, United Kingdom: ACM, 2018: 1206-1215. Google Scholar
[23]	闫静茹, 陈颖悦, 曾高发, 等. 基于邻域粒化的逻辑回归算法[J]. 山西大学学报(自然科学版), 2024, 47(1): 40-47. Google Scholar

Access History

通讯作者: 陈斌, bchen63@163.com

1.
沈阳化工大学材料科学与工程学院沈阳 110142

Figures(1) / Tables(3)

Export Citation

PDF

XML

Article Metrics

Article views(8850) PDF downloads(867) Cited by(0)

Access History

Other Articles By Authors

on this site
on Google Scholar

HTML

开放科学(资源服务)标识码(OSID):
Zadeh通过发表的“Fuzzy sets and information granularity”^[1]，对信息粒进行了定义，开启了信息粒度化思想的探索. 随后，Lin^[2]提出了粒计算(granular computing)的概念. Yao等^[3]则不断深入研究粒计算与粗糙集领域，并将其应用在知识挖掘、机器学习等领域. 21世纪初，众多研究学者纷纷加入粒计算这一新兴研究领域，并不断取得突破与创新. 苗夺谦等^[4]通过对粒计算理论与方法的研究，展示了粒计算在人工智能领域的前景与应用. Ruan等^[5]提出的信息粒化方法有助于减少时间序列分析的时间成本. 此外，朱鹏飞等^[6-8]在邻域约简和分类等领域也有显著突破. 粒计算中的粒化概念是人类认识世界的重要组成部分，在特征选择、处理复杂数据等方面发挥着重要作用.

在人类活动和自然研究中，普遍存在聚类问题. 当前提出的聚类方法旨在对大量未知标注的数据进行分类，通过数据中个体与类簇相关的属性，将个体分类到各个类簇中. 在这个过程中，同一类簇中的个体属性更为相似. 人们常用的聚类算法^[9]包括划分聚类、密度聚类、基于混合分布的聚类等. 其中，最为人熟知的是k-means算法^[10-11]，它是一种划分聚类方法. 由于k-means算法易于实现且运行时间较短，因此成为一种广泛使用的聚类分析算法，并且在各个领域都取得了不错的效果. 然而，该算法也存在一些缺点，尤其是对于稀疏或局部分布不均匀的数据，其效果往往并不理想. 另一种常见的聚类方法是密度聚类^[12]，其原理是只要区域内的点密度高于某一阈值，就将其归入相近的类簇中. 代表性的算法有DBSCAN^[13]以及针对其进行优化的OPTICS^[14]. 为了解决密度分布不均匀导致聚类效果不佳的问题，孙璐等^[15]提出了GFDBSCAN，Rodriguez等^[16]提出了基于密度峰值的聚类方法. 与划分聚类相比，密度聚类依赖于密度而不是距离的特点，因此能够对任意形状的簇进行聚类，但是其空间复杂度相较其他算法要高许多，计算开销更大. 基于混合分布的聚类方法是通过假设簇内符合多元正态分布，判断数据样本符合各个样本分布的概率，不断迭代更新，直至得到数据集的聚类情况. 这种方法主要被人们运用于图像聚类目标识别等领域，并不断加以改进. 此外，聚类还有基于网格聚类^[18]、层次聚类^[19]、谱聚类等算法.

谱聚类^[20]是一种源自图论的聚类方法，它具有处理任意形状的数据集的能力，并且在稀疏数据聚类方面表现十分出色. 因此，谱聚类在数据挖掘、图像分割、模式识别以及遥感等领域中得到广泛应用. 近年来，由于谱聚类独特的优势，引起了学术界的广泛关注. 孔万增等^[21]提出了利用矩阵的特征向量和本征间隙来自动确定类别个数的优化方法. Chen等^[22]对划分准则进行了改进，将算法的时间复杂度降至O(n²c). 在谱聚类优化中，相似矩阵的构造方法是一个关键的焦点，因为谱聚类对相似矩阵极为敏感. 如果构造出的相似矩阵不能很好地反映数据之间的近似关系，其效果就难以保证. 因此，一个良好的相似矩阵的构造对于谱聚类算法至关重要. 邻域粒^[23]能够有效地反映数据之间的近似关系，本文针对相似矩阵的构造，结合邻域粒及其距离度量方式，提出了一种新的相似矩阵构造方法，从而得到了基于邻域粒的谱聚类算法. 该方法首先通过在单一特征上对样本进行邻域粒化的方式形成邻域粒子，然后将属于同一样本的粒子组合构造成粒子向量. 通过定义邻域粒向量的距离度量，用粒向量的距离代替常规径向基核函数中的欧式距离，从而得到经过邻域粒化后的数据相似矩阵. 由于样本粒化是通过全局信息进行的，使得样本具有了全局性，从而能够更好地反映数据之间的近似关系. 最后，通过与传统聚类算法在UCI数据集上的比较，实验结果表明邻域粒化的方式在谱聚类中取得了不错的效果.

1. 邻域粒向量表示

传统的聚类方法输入的数据是样本数据，本文通过粒子与粒向量的构造方法，将数据在单一特征上进行邻域粒化，获得了粒子并推广到多个特征上，通过数据的多个粒子进行组合，构造出粒向量. 并且在粒子与粒向量上，同样能进行数学运算.

设聚类系统为$C=(R, P)$，其中数据集合为$R=\left\{r_{1}, r_{2}, \cdots, r_{n}\right\}$，特征集合为$P=\left\{p_{1}, p_{2}, \cdots, p_{m}\right\}$. 对于确定数据r∈R，其单一特征$p \in P, v(r, p) \in[0, 1]$表示进行归一化后，数据r在单一特征p上的值.

对于聚类系统$C=(R, P)$，对于不同的数据r₁，r₂∈R，其单一特征p∈P，则数据r₁和r₂在单一特征p的曼哈顿距离为

其中：v(r₁，p)表示数据r₁在单一特征p上的值.

定义1  给定聚类系统$C=(R, P)$，对于不同的数据r₁，r₂∈R，其单一特征p∈P，并设定邻域参数为δ，则定义数据与数据是否为邻域的判别函数为

其中：φ(r₁，r₂)=1表示数据与数据之间在该邻域范围内互为邻域；φ(r₁，r₂)=0则表示数据与数据在该邻域范围内不相邻.

定义2  给定聚类系统$C=(R, P)$，对于不同的数据r₁，r₂∈R，其单一特征p∈P，则数据r在特征p上的邻域粒子定义为

上述l_j=φ(r₁，r₂)，代表二者是否相邻.

定义3  给定聚类系统$C=(R, P)$，对于确定数据r∈R，其有特征子集A⊆P，设A={p₁，p₂，…，p_m}，则r在特征子集A上的邻域粒向量定义为

上述g_m(r)代表数据r在特征p_m上构造的邻域粒子.

由此可知，邻域粒子由0和1组成，表示数据在设定的邻域参数范围内的相邻关系. 由于邻域粒向量是由邻域粒子构成的，因此与传统向量的实数元素不同，其元素是由集合组合而成的.

定义4  给定聚类系统$C=(R, P)$，对于确定数据r∈R，其单一特征p∈P，则数据r在特征p上的邻域粒子g_p(r)的大小定义为

由邻域粒子的定义可知，其范围为：1≤g₁(r)≤n.

定义5  给定聚类系统$C=(R, P)$，对于确定数据r∈R，其有特征子集A⊆P，设A={p₁，p₂，…，p_m}，则数据r在特征子集A上的邻域粒向量的大小定义为

由邻域粒向量的定义可知，其大小范围为：$\sqrt{m} \leqslant\left|\boldsymbol{G}_{\boldsymbol{A}}(\boldsymbol{r})\right| \leqslant n * \sqrt{m}$.

2. 邻域粒距离度量

定义6  给定聚类系统$C=(R, P)$，特征集合为P={p₁，p₂，…，p_m}. 对于不同数据r₁，r₂∈R，其邻域粒向量在特征集合P上，分别表示为

则其加、减、交、并与异或运算定义为

定义7  给定聚类系统$C=(R, P)$，特征集合为P={p₁，p₂，…，p_m}. 对于不同数据r₁，r₂∈R，其邻域粒向量在特征集合P上，分别表示为

则2个邻域粒向量的相对距离定义为

其中：$|P|=m$，由上述定义可知，其相对距离满足：0≤d(G_P(r₁)，G_P(r₂))≤1.

定义8  给定聚类系统$C=(R, P)$，特征集合为P={p₁，p₂，…，p_m}. 对于不同数据r₁，r₂∈R，其邻域粒向量在特征集合P上，分别表示为

则2个邻域粒向量的绝对距离定义为

其中：$|P|=m, |R|=n$. 由上述定义可知，其绝对距离满足：

定理1  邻域粒向量的相对距离作为距离度量，要满足以下3个性质：

性质1  非负性，0≤d(G_P(r₁)，G_P(r₂))≤1；

性质2  对称性，d(G_P(r₁)，G_P(r₂))=d(G_P(r₂)，G_P(r₁))；

性质3  三角不等式，d(G_P(r₁)，G_P(r₂))+d(G_P(r₂)，G_P(r₃))≥d(G_P(r₁)，G_P(r₃)).

关于以上性质证明如下：

1) 由g_i(r₁)⊕g_i(r₂)=g_i(r₁)∨g_i(r₂)-g_i(r₁)∧g_i(r₂)可知

则

由P={p₁，p₂，…，p_m}可知|P|=m，因此

则

所以，0≤d(G_P(r₁)，G_P(r₂))≤1成立.

2) 因为g_i(r₁)∨g_i(r₂)=g_i(r₂)∨g_i(r₁)，g_i(r₁)∧g_i(r₂)=g_i(r₂)∧g_i(r₁)，可知

因此，d(G_P(r₁)，G_P(r₂))=d(G_P(r₂)，G_P(r₁))成立.

3) 因

所以

成立，所以d(G_P(r₁)，G_P(r₂))+d(G_P(r₂)，G_P(r₃))≥d(G_P(r₁)，G_P(r₃))成立.

同理可证，邻域粒的绝对距离也满足非负、对称、三角不等式以上3个性质.

3. 基于邻域粒的谱聚类算法

基于邻域粒的谱聚类算法是一种方法，它首先将样本进行邻域粒化，然后通过计算邻域粒向量之间的距离来构造相似矩阵，最后进行正常的谱聚类. 不同于局部处理，邻域粒化是从全局出发对样本进行处理的. 邻域粒向量由邻域粒子构成，因此邻域粒化后的粒子与粒向量具有全局信息. 由于谱聚类对相似矩阵极为敏感，利用该方法构建的相似矩阵能更好地反映数据之间的近似关系，从而使得谱聚类达到更好的效果.

3.1. 基于邻域粒的谱聚类原理

基于邻域粒的谱聚类算法的流程如下：首先对样本进行邻域粒化，将每个样本的单一特征邻域粒化为粒子，然后将这些粒子组合起来构成粒向量. 由于邻域粒化是通过全局信息进行的，因此同一簇内的粒向量之间的距离更为紧密，而不同簇之间的粒向量之间的距离相对更大. 基于这样的构造方式，得到的相似矩阵能够更好地反映数据之间的关系. 构建的邻接矩阵方法如下所示：

先将样本数据进行邻域粒化，粒化结果为GT=(G_P(r₁)，G_P(r₂)，…，G_P(r_m)). 此时，样本被邻域粒化后，可以采用粒向量的距离公式进行距离计算，并以此构建邻接矩阵W. 若采用粒向量的绝对距离，表示为h(G_P(r₁)，G_P(r₂))，此时邻接矩阵W定义如下：

若采用粒向量的相对距离，表示为d(G_P(r₁)，G_P(r₂))，此时邻接矩阵W定义如下：

谱聚类的主要思想是将所有的数据放置到图中，并用点表示，点之间的关系用边来表示. 其边的权值由点之间的相似性决定，如果相似性高，则权值高；如果相似性低，则权值低. 然后通过对图进行切割，确保子图内部的权值高，而子图与子图之间的权值低. 邻域粒化后的粒子具有全局性，能很好地满足这一思想，从而让谱聚类的性能更好，更有效地完成聚类任务.

3.2. 邻域粒谱聚类算法

具体的算法如算法1所示.

算法1 邻域粒谱聚类算法.

输入：聚类系统$C=(R, P)$，其中数据集合为R={r₁，r₂，…，r_n}，特征集合为P={p₁，p₂，…，p_m}，降维后的维度K₁，聚类维数K，邻域参数δ.

输出：簇划分F=(f₁，f₂，…，f_k).

① 样本集U邻域粒化为GT=(G_P(r₁)，G_P(r₂)，…，G_P(r_m))；

② 计算邻域粒向量G_P(r_i)之间的距离后通过邻域粒距离使用径向基函数构建相似矩阵W；

③ 通过相似矩阵W构建度矩阵D；

④ 计算出拉普拉斯矩阵L以及标准化拉普拉斯矩阵$\boldsymbol{D}^{-\frac{1}{2}} \boldsymbol{L} \boldsymbol{D}^{-\frac{1}{2}}$；

⑤ 计算标准化的拉普拉斯矩阵最小的K₁个特征值所各自对应的特征向量v；

⑥ 将各自对应的特征向量v组成的矩阵按行标准化，最终组成n×K₁维的特征矩阵V；

⑦ 将特征矩阵V的每一行视为一个K₁维的样本，共n个样本，用聚类方法将其分为K类；

⑧ 输出簇划分F=(f₁，f₂，…，f_k).

谱聚类算法的运作需要一个聚类维数K，这通常需要借助于真实的标签信息来选取一个恰当的K值，或者使用肘部法等方法获得一个适合的K值. 此外，在邻域粒化过程中要对邻域参数δ进行设定，其与数据间的距离相关联，需要通过检验来确定一个合适的值.

5. 结论

本文结合谱聚类的相似矩阵构建过程，将粒计算思想与谱聚类相融合，提出了基于邻域粒的谱聚类算法. 该算法将邻域粒化技术引入到谱聚类算法的相似矩阵构造中. 通过全局信息进行邻域粒化，使得生成的粒向量具有全局性. 因此，簇内的粒向量距离更为紧密，而簇间的粒向量距离相对较大. 由此构建的相似矩阵更能够准确地反映数据之间的关系，从而提高了谱聚类的聚类性能. 最后，本文在常见的UCI数据集上进行了实验验证，结果表明基于邻域粒的谱聚类算法相比传统方法在聚类效果上表现更佳. 这一实验结果在不同形状的数据集上得到了验证，证明了基于邻域粒的谱聚类算法的可行性和有效性.

Figure (1) Table (3) Reference (23)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

Message Board

A Neighborhood Granular Spectral Clustering Method