基于PCA-二叉树的大规模图像索引技术研究

周雪梅; 潘多

doi:10.13718/j.cnki.xsxb.2019.07.009

摘要: 针对大数据数据库中图像索引中维度灾难问题，该文提出一种基于云的大规模图像检索技术，该方法创新性地将主成分分析法和二叉树引入到图像检索技术中，首先采用尺度不变特征变换和加速鲁棒特征描述符作为帧特征，面对大规模维度特征，将主成分分析法对帧特征进行降维，并使用二叉树表示降维后的特征，以加速研究阶段并减少存储空间，最终实现图像检索.实验表明：该文方法在降维70%的条件下，搜索精确率/召回率（Precision/Recall，PR）值能够达到传统方法20%降维条件下的PR值，并且在搜索时间上，该文方法与正常搜索相比，搜索速度得到30%~50%的提升.

Abstract: In order to solve the problem of dimension disaster in the image index in large data database, a large scale image retrieval technology based on cloud has been proposed in this paper. In the method, principal component analysis and binary trees have innovatively been introduced into image retrieval technology. First, scale invariant feature transform and speeded up robust features descriptor are used as the frame features. In the face of large-scale dimension features, the principal component analysis method is used to reduce the dimension of the frame feature, and a binary tree is used to represent the features after the dimension reduction to accelerate the research phase and reduce the storage space. Finally, image retrieval is realized. Experiments show that under the condition of reducing the dimension by 70%, the PR value of this method can reach the PR value under the traditional method of 20% dimensionality reduction. Compared with normal search, the search speed of this method is increased by 30%~50%.

Key words:

全文HTML

随着云计算的发展，用于不同领域的多媒体数据库中产生了越来越大量的图像、视频和声音等数据^[1-2]，为了快速访问这些数据，必须对所有这些数据进行索引，索引图像^[3-4]代表与计算机视觉有关的各种领域的必要工具，如视频监控和运动分析，索引过程成为与大数据领域相关的热点问题^[5].对于大型数据库内图像，通常提取高维特征来精确描述图像内容，如果直接处理这些高维数据，可能会导致维度灾难问题，降低了索引算法的性能^[6].

大规模图像检索是有效利用大数据的关键技术领域之一，基于内容的图像检索^[7]已经成为流行的方法，该类方法通过图像处理和计算机视觉算法自动检测和提取图像的视觉特征(全局和局部特征)，然后与存储在数据库中的一组图像特征进行比较.最后向用户显示和查询具有相似特征的图像列表.在我们的案例中，结果是与查询具有相似功能的视频列表，降维是用于克服这些问题的有效方法之一.文献[8]中提出一种基于矩阵指数嵌入来推断高维数据低维表示的降维框架，在该框架中矩阵指数可以通过特征相似度矩阵上的随机游走来粗略解释，并且因此更加鲁棒.文献[9]中提出两种k均值聚类的降维方法，一种是基于随机投影的k均值聚类降维方法，另外一种是基于奇异值的降维方法，两种方法都能够准确特征提取，并且降低了时间复杂度.另外还有其他方式用于降维，如线性判别分析(Linear Discriminant Analysis，LDA)，支持向量机(Support Vector Machine，SVM)等方法.

目前对于图像检索的研究正在进行，文献[10]中提出了一种针对大数据设计的快速图像检索方法，该方法首先针对每个图像获得特征向量，之后编码图像特征向量并将它们放入数据库，这可以优化特征结构，最后，使用相应的相似性匹配来确定检索结果.文献[11]中提出了针对大规模图像数据库中基于尺度不变特征变换(Scale Invariant Feature Transform，SIFT)特征和基于内容的图像检索方法，该系统从每个原始图像中提取SIFT特征向量，根据视觉相似性计算结果将视觉相似的图像返回给用户，其创新之处在于引入SIFT描述符来表示图像的可视内容，然后利用距离比作为阈值来控制匹配特征点的个数.文献[12]提出了一种新的基于内容的图像检索方法，改进可扩展词汇树图像检索方法，解决了传统基于内容的图像检索技术通过特征向量来表达每幅图像在大规模图像检索中的精度和时间问题.

本文在研究了已有图像检索方法的基础上，针对大规模图像数据库检索中的特征维度灾难，以及搜索时间长的问题，提出了一种高效率的大数据数据库图像索引方法.该方法首先将SIFT和加速鲁棒特征(Speeded up Robust Features，SURF)提取为图像特征，然后采用PCA降维方法来减小这些特征的尺寸，最后，提出了一种基于二叉树的图像存储结构表示方法，以加快索引时间.

3. 结论

针对大数据数据库图像索引维度和时间问题，本文提出了基于PCA-二叉树的大规模图像索引方法，通过应用PCA和二叉树表示数据来显示和评估通过不同策略在大规模图像中降维获得的实验结果.实验结果表明，与20%的压缩比相比，70%的压缩比得到的PR曲线几乎相同，因为本文方法在索引时间和存储空间2个方面都有所提升.此外，与传统图像索引方法比较，本文方法能够减少索引时间，最高减少50%.在接下来的工作中，计划通过使用Hadoop和HDFS作为分布式文件系统和MapReduce作为编程模型来改进本文方法，以便在数据增加时应用并行化处理.

参考文献 (12)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

[1]	WU X D, ZHU X Q, WU G Q, et al.Data Mining with Big Data[J].IEEE Transactions on Knowledge and Data Engineering, 2014, 26(1):97-107. doi: 10.1109/TKDE.2013.109
[2]	陈小玉, 李晓静, 马海英.一种面向大数据的快速自动聚类算法[J].计算机应用研究, 2017, 34(9):2651-2654, 2658. doi: 10.3969/j.issn.1001-3695.2017.09.019
[3]	余琨, 伍孝金.区域相关融合纹理特征FDPC图书馆文档图像检索[J].西南师范大学学报(自然科学版), 2017, 42(7):91-98. doi: http://xbgjxt.swu.edu.cn/jsuns/jscnuhhse/ch/reader/view_abstract.aspx?file_no=x201707015&flag=1
[4]	CHAKER A, KAANICHE M, BENAZZA-BENYAHIA A, et al.An Efficient Image Retrieval Method under Dithered-Based Quantization Scheme[C]. Budapest: 24th European Signal Processing Conference (EUSIPCO), 2016.
[5]	YANG J C, JIANG B, LI B H, et al.A Fast Image Retrieval Method Designed for Network Big Data[J].IEEE Transactions on Industrial Informatics, 2017, 13(5):2350-2359. doi: 10.1109/TII.2017.2657545
[6]	CHEN Z, WEN Y H, CAO J W, et al.A Survey of Bitmap Index Compression Algorithms for Big Data[J].Tsinghua Science and Technology, 2015, 20(1):100-115. doi: 10.1109/TST.2015.7040519
[7]	彭晏飞, 张维, 訾玲玲, 等.一种具有双层信息损失优化结构的遥感图像检索方法[J].计算机应用研究, 2018, 35(6):1853-1857, 1862. doi: 10.3969/j.issn.1001-3695.2018.06.057
[8]	WANG S J, YAN S C, YANG J, et al.A General Exponential Framework for Dimensionality Reduction[J].IEEE Transactions on Image Processing, 2014, 23(2):920-930. doi: 10.1109/TIP.2013.2297020
[9]	BOUTSIDIS C, ZOUZIAS A, MAHONEY M W, et al.Randomized Dimensionality Reduction for k-Means Clustering[J].IEEE Transactions on Information Theory, 2015, 61(2):1045-1062. doi: 10.1109/TIT.2014.2375327
[10]	YANG J C, JIANG B, LI B H, et al.A Fast Image Retrieval Method Designed for Network Big Data[J].IEEE Transactions on Industrial Informatics, 2017, 13(5):2350-2359. doi: 10.1109/TII.2017.2657545
[11]	HE T, WEI Y, LIU Z J, et al.Content Based Image Retrieval Method Based on SIFT Feature[C]. Xiamen: International Conference on Intelligent Transportation, Big Data & Smart City (ICITBS), 2018.
[12]	WANG X L, WANG X, HOU A N.A Fast Quantization Tree Based Image Retrieval Method[C]//Proceedings on the International Conference on Artificial Intelligence (ICAI).Cairo: The Steering Committee of The World Congress in Computer Science, Computer Engineering and Applied Computing (WorldComp), 2016.

留言板