Fine-Grained Image Classification Algorithm Based on Attention Mechanism and Circular Convolutional Neural Network

Wei WANG; Fang WU

doi:10.13718/j.cnki.xsxb.2020.01.009

Fine-grained image classification is a hot research field in computer vision. Because subcategories within a large species have similar appearances and similar colors, the differences are subtle. Therefore, fine-grained image classification is very challenging. To solve this problem, an attention-based cyclic convolutional neural network for fine-grained image classification has been proposed in this paper. Firstly, according to the attention mechanism, the region of the significant object in an image is extracted. Secondly, the original image and the significance region of each extraction are classified respectively. And finally, the score of classification layer is fused for final classification. We conduct experiments on very challenging public datasets:CUB 200-2011, Stanford Dogs and Stanford Cars. We compared our method with the state-of-the-art methods, and the experimental results show that our proposed method is very effective.

HTML

随着社会发展，图像分类越来越重要，是计算机视觉领域中比较热门的研究方向.通用的图像分类的目的主要是区分出不同的物种，比如区分汽车和鸟.随着深度学习以及计算机视觉的飞速发展，通用图像分类的准确率越来越高.然而，随着社会发展以及人类的需求多样性，通用图像分类已经满足不了人们的需求.例如，当人们在天空中看到一只鸟，却分不清具体是什么鸟.当人们看到飞机，却不知道是什么类型的飞机.细粒度图像分类是在区分出基础类别的基础上进一步对子类别进行分类.由于子类别之间往往都非常相似，一般只能通过细微的局部差异对不同的子类别进行区分.随着社会不断发展，细粒度分类的需求越来越多，如对飞机和汽车^[1]分类可以帮助非专业人士进行准确判断，食物分类、菜品分类和服饰分类可以在吃饭、买菜和购物时给顾客带来帮助.动物子类别分类如鸟^[2]、狗也具有广泛的应用前景，如对不同子类别的昆虫进行分类，可以帮助农民快速识别出害虫的种类，进而进行防治工作；对不同子类别的动物进行分类，可以帮助专家更好地区分和保护稀有物种.

研究者们为了解决这一问题，提出了细粒度图像分类方法.细粒度分类主要是区分大类别中的子类别，比如区分不同类型的鸟.解决细粒度图像分类问题最简单的方法就是直接使用一般图像分类模型进行训练，但是这样做会导致分类性能低下，无法应用于实际情况.导致这种现象的主要原因是细粒度图像分类和一般的图像分类存在明显差异. 图 1是通用图像分类和细粒度图像分类的图像样本.其中，图 1(a)是通用图像分类的图像样本，主要区分大的物体类别；图 1(b)是细粒度图像分类的图像样本，主要区分大的物体类别中的子类别.

发现同一个物种之间差别非常细微，如图 1中第二行的鸟，第一只和第二只，不仅形状很相似，而且颜色都是黑色的，只有细微的差别.所以，细粒度图像分类是一项极具挑战性的问题.为此，本文提出了一种细粒度图像分类方法，该方法基于注意机制提取出图像中的显著物体区域，并对提取出的显著区域进行分类，最后通过融合整幅图像和显著物体区域的分类结果，获取最终的图像分类准确率.为了评估所提出方法的有效性，在公共数据集上做了大量实验.实验结果表明，本文提出的方法优于其他存在的方法，证明了该方法的有效性.

1. 细粒度图像分类、注意机制和卷积神经网络

1.1. 细粒度图像分类

图像分类是计算机视觉领域的研究热点之一.为了解决不同数据集中共同类别图像特征学习能力比较弱的问题，文献[2]提出了一种多重卷积神经网络的跨数据集图像分类方法.为了解决由于遮挡、光照以及图像姿态变化对图像分类性能的影响，文献[3]提出了一种图像集原型和投影学习算法.

越来越多的学者开始研究极具挑战性的细粒度图像分类.文献[4]对基于卷积神经网络的细粒度图像分类进行了比较全面的描述，首先介绍了细粒度图像分类的现状，然后分析了强监督和弱监督细粒度图像分类的差异，最后对各种算法进行了总结.先前的研究者，都是有监督细粒度图像分类^[5-6]，根据标注信息提取出显著的物体，然后进行分类.文献[5]提出一种对深度网络中filter进行挑选的方法，基于挑选的filter结果构建复杂特征表达.首先，利用深度filter的选择性来挖掘对于某些模式敏感的filter(比如鸟的喙与腿，如图 1所示)，从而得到一个weak的Part Detector，进而通过该Weak Detector作为初始值来训练一个Discriminative Part Detector.文献[6]提出深度模型迁移(DMT)分类方法，该方法可以解决细粒度图像分类中模型复杂度高、很难利用较深的模型等问题.

目前，学者们开始研究弱监督的图像分类^[7].文献[7]提出一种分层的图像分类方法，该方法联合物体级别和部件级别的特征.该模型不需要数据集提供的标注信息，而是依赖于自身的算法来获得物体和局部区域.文献[8]提出一种多任务的域适应方法用于细粒度图像分类，该文章研究了细粒度域适应问题，克服了真实数据难以获得注释这一难题.文献[9]提出一种低秩的双线性池化方法用于细粒度图像分类，该方法采用一种深度感知门控模块，该模块根据对象尺度(与深度成反比)自适应地选择卷积网络结构中的池域大小，从而保留图像的细节信息，可以更好地进行分类.为了利用类间的细微差异，文献[10]提出了基于RPN(Region Proposal Network)与B-CNN(Bilinear CNN)的细粒度分类方法.为了防止过拟合，首先利用OHEM(Online Hard Example Mine)筛选出对识别结果影响大的图像，然后将筛选之后剩余的图像输入到RPN网络中，得到了对象级别的标注图像，同时将带有对象级别标注信息的图像输入到改进后的B-CNN中，进而进行细粒度图像分类.

1.2. 注意机制

当人们在看一样东西的时候，所关注的肯定是当前正在看的这个东西的某一个地方，即当人们的目光转移到别的地方时，注意力会随着目光移动而转移，这就意味着当注意到某个场景或者某个物体时，该场景内以及该目标内每一个位置上的注意力分布不同.其实，人们在观察图像时，并不是一次性就能把整幅图像每一个位置的像素都看一遍，大多数都是根据需求把注意力集中在图像的特定位置.人们会根据之前所观察的图像来学习，并且得到未来所要观察图像的注意力应该集中的位置.

注意机制^{[8, 11-12]}运用在各行各业，例如图像分类、目标检测、目标跟踪以及姿态估计等等.注意机制符合人类的视觉机理，首先大致一瞥，第一眼看到感兴趣的区域；然后对感兴趣的区域进行分类、检测、定位等等.文献[8]提出一种自顶向下的注意机制，利用带有反馈的卷积网络.文献[12]提出一种细粒度图像检索方法，该方法首先基于显著性注意机制提取出有意义的目标区域，然后提取这些区域中的特征进行图像检索.实验结果表明这些特征非常具有判别力.

在以上细粒度图像分类方法中，要么需要标注注释信息，而这些注释信息需要人力进行标注，耗费人力财力，大大增加了工作量；要么没有运用注意机制，不能更好地对物体占整幅图比例比较小的图像进行分类.为了解决以上这些问题，本文提出一种无监督基于注意机制的循环深度卷积神经网络用于细粒度图像分类.本文提出的方法不仅可以不需要标注信息，节省了大量的人力财力，而且运用了基于注意机制的循环卷积神经网络，可以循环地捕捉微小的细节信息，进而提高细粒度图像分类的性能.

1.3. 卷积神经网络

卷积神经网络(Convolutional Neural Networks，CNN)是深度学习(deep learning)的主要算法之一，可以直接将图像作为输入，并且自动地提取特征，还可以对图像进行变形(如比例缩放、平移、倾斜)操作.卷积神经网络主要包括数据输入层、卷积计算层、ReLU激励层、池化层和全连接层.数据输入层主要是对原始数据进行预处理，包括去均值、归一化和白化处理.卷积计算层是卷积神经网络中最重要的层，包括局部关联和窗口滑动2个关键操作.激励层的作用是对卷积层输出的结果做非线性映射，一般用ReLU做激励层.池化层在2个卷积层中间，可以减少过拟合.全连接层是指两层之间的神经元进行两两连接.本文提出一种基于注意机制的循环卷积神经网络结构，用于细粒图像分类.实验结果表明，该方法对细粒度图像分类非常有用.

4. 结语

本文提出了一种基于注意机制和循环卷积神经网络的细粒度图像分类算法，首先基于注意机制提取图像的显著区域，然后结合原始图像和得到的有用物体区域进行分类.在数据集PASCAL VOC2012和数据集MSCOCO上进行定位实验，实验结果表明，本文提取的显著性物体非常准确.在公开的、有挑战性的数据集CUB-200-2011，Stanford Dogs和Stanford Cars上进行大量的细粒度分类实验，实验结果表明本文提出的细粒度图像分类方法有效.

Figure (4) Table (8) Reference (15)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	KRAUSE J, STARK M, DENG J, et al.3D Object Representations for Fine-Grained Categorization[C]//IEEE International Conference on Computer Vision Workshops. New York: IEEE, 2013. Google Scholar
[2]	刘鑫童, 刘立波, 张鹏.基于多重卷积神经网络跨数据集图像分类[J].计算机工程与设计, 2018, 39(11):3549-3554. Google Scholar
[3]	路易, 吴玲达, 朱江.基于卷积神经网络的高光谱图像分类方法[J].计算机工程与设计, 2018, 39(9):2836-2841. Google Scholar
[4]	罗建豪, 吴建鑫.基于深度卷积特征的细粒度图像分类研究综述[J].自动化学报, 2017, 43(8):1306-1318. Google Scholar
[5]	ZHANG X, XIONG H, ZHOU W, et al.Picking Deep Filter Responses for Fine-Grained Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas: IEEE, 2016. Google Scholar
[6]	刘尚旺, 郜翔.基于深度模型迁移的细粒度图像分类方法[J].计算机应用, 2018, 38(8):64-70. Google Scholar
[7]	XIAO T, XU Y, YANG K, et al.The Application of Two-Level Attention Models in Deep Convolutional Neural Network for Fine-Grained Image Classification[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston: IEEE, 2015. Google Scholar
[8]	GEBRU T, HOFFMAN J, LFei-Fei.Fine-Grained Recognition in the Wild: A Multi-Task Domain Adaptation Approach[C]//2017 IEEE International Conference on Computer Vision.Venice: IEEE, 2017. Google Scholar
[9]	KONG S, FOWLKES C.Low-rank Bilinear Pooling for Fine Grained Classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. Google Scholar
[10]	赵浩如, 张永, 刘国柱.基于RPN与B-CNN的细粒度图像分类算法研究[J].计算机应用与软件, 2019, 36(3):210-213, 264. doi: 10.3969/j.issn.1000-386x.2019.03.038 CrossRef Google Scholar
[11]	CAO C S, LIU X M, YANG Y, et al.Look and Think Twice: Capturing Top-Down Visual Attention with Feedback Convolutional Neural Networks[C]//2015 IEEE International Conference on Computer Vision(ICCV). Santiago: IEEE, 2016. Google Scholar
[12]	WEI X S, LUO J H, WU J X, et al.Selective Convolutional Descriptor Aggregation for Fine-Grained Image Retrieval[J]. IEEE Transactions on Image Processing, 2017, 26(6):2868-2881. doi: 10.1109/TIP.2017.2688133 CrossRef Google Scholar
[13]	KHOSLA A, JAYADEVAPRAKASH N, YAO B, et al.Novel Dataset for Fine-Grained Image Categorization: Stanford Dogs[C].Denver: Proc.CVPR Workshop on Fine-Grained Visual Categorization (FGVC), 2011. Google Scholar
[14]	SUN C, PALURI M, COLLOBERT R, et al.ProNet: Learning to Propose Object-Specific Boxes for Cascaded Neural Networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas: IEEE, 2016. Google Scholar
[15]	DURAND T, MORDAN T, THOME N, et al.WILDCAT: Weakly Supervised Learning of Deep ConvNets for Image Classification, Pointwise Localization and Segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu: IEEE, 2017. Google Scholar

Message Board

Fine-Grained Image Classification Algorithm Based on Attention Mechanism and Circular Convolutional Neural Network

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors

Fine-Grained Image Classification Algorithm Based on Attention Mechanism and Circular Convolutional Neural Network