ViTH: 面向医学图像检索的视觉Transformer哈希改进算法

刘传升; 丁卫平; 程纯; 黄嘉爽; 王海鹏

doi:10.13718/j.cnki.xdzk.2024.05.002

ViTH: 面向医学图像检索的视觉Transformer哈希改进算法

南通大学信息科学技术学院, 江苏南通 226019

基金项目: 国家自然科学基金项目(61976120, 62102199); 教育部人文社会科学研究青年基金项目(21YJCZH013); 江苏省自然科学基金项目(BK20231337); 江苏省高等学校自然科学研究重大项目(21KJA510004); 江苏省研究生科研与实践创新计划项目(SJCX22_1615)

详细信息

作者简介:
刘传升, 硕士研究生, 主要从事深度学习、多媒体信息检索研究 .

通信作者: 丁卫平, 教授, 博士研究生导师;

中图分类号: TP391

ViTH: Improved Vision Transformer Hashing Algorithm for Medical Image Retrieval

School of Information Science and Technology, Nantong University, Nantong Jiangsu 226019, China

摘要:
对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义. 哈希方法是图像检索领域中的一种主流方法, 但在医学图像领域的应用相对较少. 针对此, 提出一种面向医学图像检索的视觉Transformer哈希改进算法. 首先使用视觉Transformer模型作为基础的特征提取模块, 其次在Transformer编码器的前、后端分别加入幂均值变换(Power-Mean Transformation, PMT), 进一步增强模型的非线性性能, 接着在Transformer编码器内部的多头注意力(Multi-Head Attention, MHA)层引入空间金字塔池化(Spatial Pyramid Pooling, SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention, MHSPA)模块, 该模块不仅可以提取全局的上下文特征, 而且可以提取多尺度的局部上下文特征, 并将不同尺度的特征进行融合. 最后在输出幂均值变换层之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons, MLPs), 上分支的MLP用来预测图像的类别, 下分支的MLP用来学习图像的哈希码. 在损失函数部分, 充分考虑了成对损失、量化损失、平衡损失以及分类损失来优化整个模型. 在医学图像数据集ChestX-ray14和ISIC 2018上的实验结果表明, 该研究所提出的算法相比于经典的哈希算法具有更好的检索效果.
- 医学图像检索 /
- 视觉Transformer /
- 哈希 /
- 幂均值变换 /
- 空间金字塔池化
Abstract:
Effective retrieval of huge number of medical images will bring extremely important significance to medical diagnosis and treatment. Hashing method is a mainstream method in the field of image retrieval, but the application in the field of medical images is relatively small. For this, an improved Vision Transformer Hashing algorithm for medical image retrieval is proposed. Firstly, the Vision Transformer model is used as the base feature extraction module; secondly, the Power-Mean Transform (PMT) is added to the front and back ends of the Transformer encoder respectively to further enhance the nonlinear performance of the model; and then the Spatial Pyramid Pooling (SPP) is introduced into the Multi-Head Attention (MHA) layer inside the Transformer encoder to form the Multi-Head Spatial Pyramid Pooling Attention (MHSPA) module, which not only extracts global contextual features, but also extracts multi-scale local contextual features and fuses features of different scales; finally, after outputting the Power-Mean Transformation layer, the extracted features are passed through two Multi-Layer Perceptrons (MLPs) respectively, and the MLP in the upper branch is used to predict the category of the image and the MLP in the lower branch is used to learn the hashing codes of the images. In the loss function part, pairwise loss, quantization loss, balanced loss, and classification loss are fully considered to optimize the whole model. Experimental results on the medical image dataset ChestX-ray14 and ISIC 2018 show that the proposed algorithm in this paper has better retrieval results compared to the classical hashing algorithm.
- medical image retrieval /
- vision transformer /
- hashing /
- power-mean transformation /
- spatial pyramid pooling .

图 1 ViTH整体框架

下载: 全尺寸图片幻灯片

图 2 空间金字塔池化(Spatial Pyramid Pooling，SPP)

下载: 全尺寸图片幻灯片

图 3 多头空间金字塔池化注意力机制(Multi-Head Spatial Pyramid Pooling Attention，MHSPA)

下载: 全尺寸图片幻灯片

图 4 不同哈希算法在ChestX-ray14数据集上的对比实验

下载: 全尺寸图片幻灯片

图 5 不同哈希算法在ISIC 2018数据集上的对比实验

下载: 全尺寸图片幻灯片

图 6 ViTH在36位哈希编码下随机检索到的前10张图像(从左到右，返回的图像按汉明距离降序排列)

下载: 全尺寸图片幻灯片

图 7 ViTH在12位哈希编码下随机检索到的前10张图像(从左到右，返回的图像按汉明距离降序排列)

下载: 全尺寸图片幻灯片

图 8 36位哈希编码下超参数α不同时的MAP

下载: 全尺寸图片幻灯片

图 9 36位哈希编码下超参数β不同时的MAP

下载: 全尺寸图片幻灯片

图 10 36位哈希编码下超参数γ不同时的MAP

下载: 全尺寸图片幻灯片

表 1 不同哈希算法在ChestX-ray14上的检索结果

算法	不同码长下的Precision@10
算法	8bit	12bit	24bit	36bit
DSH	0.434	0.444	0.411	0.441
DPSH	0.449	0.442	0.396	0.402
IDHN	0.407	0.413	0.453	0.481
DBDH	0.374	0.400	0.380	0.409
VTS	0.405	0.416	0.468	0.516
SADH	0.422	0.484	0.509	0.519
ViTH	0.583	0.634	0.731	0.758

下载: 导出CSV

表 2 不同哈希算法在ISIC 2018上的检索结果

算法	不同码长下的MAP
算法	8bit	12bit	24bit	36bit
DSH	0.549	0.625	0.662	0.687
DPSH	0.630	0.651	0.713	0.706
IDHN	0.569	0.623	0.641	0.627
DBDH	0.597	0.607	0.614	0.550
VTS	0.415	0.639	0.714	0.715
SADH	0.574	0.642	0.686	0.696
ViTH	0.740	0.754	0.746	0.719

下载: 导出CSV

[1]	RAHMAN M M, BHATTACHARYA P, DESAI B C. A Framework for Medical Image Retrieval Using Machine Learning and Statistical Similarity Matching Techniques with Relevance Feedback[J]. IEEE Transactions on Information Technology in Biomedicine: A Publication of the IEEE Engineering in Medicine and Biology Society, 2007, 11(1): 58-69.
[2]	OWAIS M, ARSALAN M, CHOI J, et al. Effective Diagnosis and Treatment through Content-Based Medical Image Retrieval (CBMIR) by Using Artificial Intelligence[J]. Journal of Clinical Medicine, 2019, 8(4): 462. doi: 10.3390/jcm8040462
[3]	UNAR S, WANG X Y, ZHANG C, et al. Detected Text-Based Image Retrieval Approach for Textual Images[J]. IET Image Processing, 2019, 13(3): 515-521. doi: 10.1049/iet-ipr.2018.5277
[4]	QAYYUM A, ANWAR S M, AWAIS M, et al. Medical Image Retrieval Using Deep Convolutional Neural Network[J]. Neurocomputing, 2017, 266: 8-20. doi: 10.1016/j.neucom.2017.05.025
[5]	曾宪华, 袁知洪, 王国胤, 等. 基于多特征多核哈希学习的大规模图像检索[J]. 中国科学: 信息科学, 2017, 47(8): 1109-1126. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-PZKX201708012.htm
[6]	刘颖, 程美, 王富平, 等. 深度哈希图像检索方法综述[J]. 中国图象图形学报, 2020, 25(7): 1296-1317. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202007002.htm
[7]	SINGH A, GUPTA S. Learning to Hash: A Comprehensive Survey of Deep Learning-Based Hashing Methods[J]. Knowledge and Information Systems, 2022, 64(10): 2565-2597. doi: 10.1007/s10115-022-01734-0
[8]	ANDONI A, INDYK P. Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions[J]. Communications of the ACM, 2008, 51(1): 117-122. doi: 10.1145/1327452.1327494
[9]	KONG W H, LI W J. Isotropic Hashing[C] //Proceedings of the 25th International Conference on Neural Information Processing Systems, Nevada, USA, 2012: 1646-1654.
[10]	陈昌红, 彭腾飞, 干宗良. 基于深度哈希算法的极光图像分类与检索方法[J]. 电子与信息学报, 2020, 42(12): 3029-3036. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202012026.htm
[11]	LIU H M, WANG R P, SHAN S G, et al. Deep Supervised Hashing for Fast Image Retrieval[J]. International Journal of Computer Vision, 2019, 127(9): 1217-1234. doi: 10.1007/s11263-019-01174-4
[12]	LI W J, WANG S, KANG W C. Feature Learning Based Deep Supervised Hashing with Pairwise Labels[C] //Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence, New York, USA, 2016: 1711-1717.
[13]	CAO Y, LONG M S, LIU B, et al. Deep Cauchy Hashing for Hamming Space Retrieval[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Utah, USA, 2018: 1229-1237.
[14]	WANG X F, SHI Y, KITANI K M. Deep Supervised Hashing with Triplet Labels[C] //Asian Conference on Computer Vision, Taipei, China, 2016: 70-84.
[15]	LIU B, CAO Y, LONG M S, et al. Deep Triplet Quantization[C] //Proceedings of the 26th ACM international conference on Multimedia, Seoul, Republic of Korea, 2018: 755-763.
[16]	FANG J S, FU H Z, LIU J. Deep Triplet Hashing Network for Case-Based Medical Image Retrieval[J]. Medical Image Analysis, 2021, 69: 101981. doi: 10.1016/j.media.2021.101981
[17]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you Need[C] //Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, California, USA, 2017: 5998-6008.
[18]	CARION N, MASSA F, SYNNAEVE G, et al. End-to-End Object Detection with Transformers[C] //European Conference on Computer Vision, Glasgow, UK, 2020: 213-229.
[19]	DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[C] //The Ninth International Conference on Learning Representations, Vienna, Austria, 2021: 1-21.
[20]	HAN K, XIAO A, WU E H, et al. Transformer in Transformer[J]. Advances in Neural Information Processing Systems, 2021, 34: 15908-15919.
[21]	WANG W H, XIE E Z, LI X, et al. Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions[C] //Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, IEEE: 568-578.
[22]	HE S T, LUO H, WANG P C, et al. TransReID: Transformer-Based Object Re-Identification[C] //Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, IEEE: 15013-15022.
[23]	DUBEY S R, SINGH S K, CHU W T. Vision Transformer Hashing for Image Retrieval[C] //Proceedings-IEEE International Conference on Multimedia and Expo, Taipei, China, 2022 : 1-6.
[24]	CHEN Y B, ZHANG S, LIU F X, et al. TransHash: Transformer-Based Hamming Hashing for Efficient Image Retrieval[C] //Proceedings of the 2022 International Conference on Multimedia Retrieval, Newark, NJ, USA, 2022: 127-136.
[25]	LI T, ZHANG Z, PEI L S, et al. Hash Former: Vision Transformer Based Deep Hashing for Image Retrieval[J]. IEEE Signal Processing Letters, 2022, 29: 827-831. doi: 10.1109/LSP.2022.3157517
[26]	GONG Q K, WANG L D, LAI H J, et al. ViT2Hash: Unsupervised Information-Preserving Hashing[EB/OL]. 2022: arXiv: 05541. http://arxiv.org/abs/2201.05541.
[27]	ZHANG C L, WU J X. Improving CNN Linear Layers with Power Mean Non-Linearity[J]. Pattern Recognition, 2019, 89: 12-21. doi: 10.1016/j.patcog.2018.12.029
[28]	HE X Z, TAN E L, BI H W, et al. Fully Transformer Network for Skin Lesion Analysis[J]. Medical Image Analysis, 2022, 77: 102357. doi: 10.1016/j.media.2022.102357
[29]	LU H M, ZHANG M, XU X, et al. Deep Fuzzy Hashing Network for Efficient Image Retrieval[J]. IEEE Transactions on Fuzzy Systems, 2021, 29(1): 166-176. doi: 10.1109/TFUZZ.2020.2984991
[30]	WANG X Q, LAN R S, WANG H D, et al. Fine-Grained Correlation Analysis for Medical Image Retrieval[J]. Computers and Electrical Engineering, 2021, 90: 106992. doi: 10.1016/j.compeleceng.2021.106992
[31]	XU L M, ZENG X H, ZHENG B C, et al. Multi-Manifold Deep Discriminative Cross-Modal Hashing for Medical Image Retrieval[J]. IEEE Transactions on Image Processing, 2022, 31: 3371-3385. doi: 10.1109/TIP.2022.3171081
[32]	YANG E K, LIU M X, YAO D R, et al. Deep Bayesian Hashing with Center Prior for Multi-Modal Neuroimage Retrieval[J]. IEEE Transactions on Medical Imaging, 2021, 40(2): 503-513. doi: 10.1109/TMI.2020.3030752
[33]	BA J L, KIROS J R, HINTON G E. Layer Normalization[EB/OL]. arXiv: 1607. 06450. http://arxiv.org/abs/1607.06450.
[34]	HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770-778.
[35]	邹细涛. 多标记跨模态语义哈希图文检索研究[D]. 重庆: 西南大学, 2022.
[36]	JIANG Q Y, LI W J. Asymmetric Deep Supervised Hashing[C] //Proceedings of the AAAI Conference on Artificial Intelligence, New Orleans, USA, 2018: 3342-3349.
[37]	ZHANG Z, ZOU Q, LIN Y W, et al. Improved Deep Hashing with Soft Pairwise Similarity for Multi-Label Image Retrieval[J]. IEEE Transactions on Multimedia, 2020, 22(2): 540-553. doi: 10.1109/TMM.2019.2929957
[38]	ZHENG X T, ZHANG Y C, LU X Q. Deep Balanced Discrete Hashing for Image Retrieval[J]. Neurocomputing, 2020, 403: 224-236. doi: 10.1016/j.neucom.2020.04.037
[39]	YU Z Y, WU S, DOU Z H, et al. Deep Hashing with Self-Supervised Asymmetric Semantic Excavation and Margin-Scalable Constraint[J]. Neurocomputing, 2022, 483: 87-104. doi: 10.1016/j.neucom.2022.01.082
[40]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Image Net Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386
[41]	曾超, 白琮, 马青, 等. 基于对抗投影学习的跨模态哈希检索[J]. 计算机辅助设计与图形学学报, 2021, 33(6): 904-912. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSJF202106010.htm

图( 10) 表( 2)

计量

文章访问数: 6465
HTML全文浏览数: 6465
PDF下载数: 901
施引文献: 0

全文HTML

开放科学(资源服务)标识码(OSID):
近年来，X射线、核磁共振、计算机断层扫描、多普勒彩超等技术不断发展，由此所产生的医学影像也逐渐增加^[1]. 不同的医学影像技术涵括了对人类不同身体部位的视觉解读，为了能够做出更合理的诊断，医生大多需要借助以往相关病例的影像资料来判断当前患者所患的病症^[2]. 然而，针对如此海量的医学图像，如何快速且高效地检索到相关图像是一项重大挑战.

早期，基于文本的图像检索(Text-Based Image Retrieval，TBIR)是一种主流的检索技术，该技术一般通过图像文本形式的启发式信息(如标签、图像描述符等)进行检索，因此需要工作人员对每一张图像进行手工标注^[3]. 然而，针对数以百万计的图像数据，手工标注每一幅图像显然是不现实的. 为了克服这一弊端，基于内容的图像检索(Content-Based Image Retrieval，CBIR)技术迅速兴起. CBIR是一种计算机视觉技术，它提供了一种在大型数据库中搜索相关图像的方法，这种搜索方法通过视觉特征(如颜色、形状和纹理等)来描述图像，而检索精度主要取决于这些选定的特征^[4]. 在CBIR中，对于一张给定的待查询图像，系统会从数据库中检索出一些在颜色、形状和纹理等方面与其相似的图像返回给用户. 假设数据库中的图像和待查询图像都是由实值特征表示，搜索相关图像的最简单方法就是根据它们在特征空间中的距离进行排序，并返回距离最近的图像. 然而，对于大规模图像检索而言，CBIR同样面临着存储空间大、检索精度低且速度慢的缺点^[5].

为了解决内存成本高、检索速度慢且精度低等一系列问题，基于哈希的图像检索方法被提出并逐渐得到应用. 哈希方法主要是将高维图像特征映射到低维汉明空间并生成紧凑的二进制哈希码，同时还能保持原始图像数据的相似性. 该方法极大地降低了特征维度，避免了维度过高问题，在检索精度和检索速度方面得到了极大改善^[6-7]. 哈希方法具体分为两类：数据独立和数据依赖. 其中，在数据独立的哈希算法领域中，最著名的就是局部敏感哈希^[8](Locality-Sensitive Hashing，LSH)及其变形算法. 该类算法采用随机映射的方式来获得哈希函数，并且一般需要足够长的哈希码位数才能够达到较高的精度. 相比之下，数据依赖的哈希算法只需要极短的哈希码就可以达到较为理想的精度，该类算法从训练集中学习哈希函数，故又称为学习哈希^[9]. 因此，在实际应用中，数据依赖的哈希算法比数据独立的哈希算法更流行.

近年来，受益于深度学习在图像处理方面所表现出的强大性能，人们开始将哈希方法和深度学习相结合，提出了深度哈希算法. 深度哈希算法主要利用卷积神经网络(Convolutional Neural Network，CNN)来提取图像特征，然后利用提取到的特征进行哈希函数学习，这不仅有效避免了语义鸿沟问题，还极大地提高了检索性能^[10]. 根据对标签信息的利用，深度哈希算法又分为无监督、半监督和监督3种方式. 一般来说，监督深度哈希算法的精度要高于其他两种方式，代表性的有基于成对标签的深度监督哈希^[11]、深度成对监督哈希^[12]、深度柯西哈希^[13]等，以及基于三元组标签的深度三元标签监督哈希^[14]、深度三元组量化^[15]、基于注意力的三元哈希^[16]等.

2017年，Vaswani等^[17]提出了Transformer模型，并在自然语言处理领域取得了巨大成功. 2020年，Carion等^[18]提出了DETR模型，并引入Transformer做目标检测任务. 2021年，Dosovitskiy等^[19]在Transformer的基础上提出了视觉Transformer模型，并将其应用于计算机视觉领域；Han等^[20]在视觉Transformer的基础上提出了TNT模型，进一步提升了模型在数据上的学习能力和泛化性；Wang等^[21]提出了PVT模型，并将Pyramid CNN的思路引入Transformer，大幅提高了输出结果的分辨率. 大量实验表明，Transformer在各种计算机视觉任务中(如图像分类^[19]、目标识别^[22]等)优于许多基于CNN的方法. 近期，在哈希图像检索领域也出现了许多基于Transformer的模型，如VTS^[23]、TransHash^[24]、HashFormer^[25]、ViT2Hash^[26]等，这些模型也取得了不错的效果.

基于上述分析，本研究提出面向医学图像检索的视觉Transformer哈希(Vision Transformer Hashing，ViTH)改进算法，同时这也是一种完全不采用CNN作为主架构的深度哈希算法. 本研究使用视觉Transformer作为基础特征提取模块来提取医学图像的视觉特征. 首先在Transformer编码器的前、后端分别加入了幂均值变换(Power-Mean Transformation，PMT)^[27]来进一步增强模型的非线性性能，然后在Transformer编码器内部的多头注意力(Multi-Head Attention，MHA)层引入空间金字塔池化(Spatial Pyramid Pooling，SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention，MHSPA)^[28]模块，接着在输出幂均值变换之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons，MLPs)，上分支的MLP用来预测图像的类别，下分支的MLP用来学习图像的哈希码，最后通过成对损失、量化损失、平衡损失以及分类损失来优化整个模型.

本研究主要贡献如下：

1) 提出了一种面向医学图像检索的视觉Transformer哈希改进算法.

2) 为了进一步提取具有细微差异的医学图像特征，本研究在多头注意力层中引入空间金字塔池化，形成多头空间金字塔池化注意力模块. 在损失函数中，除了成对损失、量化损失和平衡损失，该算法还设计了分类损失来进一步优化模型所学习的哈希码.

3) 本研究提出的算法不仅仅适用于ChestX-ray14和ISIC 2018，还可以扩展到其他医学图像数据集. 另外，在ChestX-ray14和ISIC 2018医学图像数据集上验证了算法的有效性. 相比目前的算法，本研究取得了较好的检索效果.

1. 相关工作

1.1. 医学图像检索

医学图像具有相似性大、类别多等特性，在大量医学影像中高效准确地检索到所需图像一直是一项挑战. 近年来，很多学者逐渐将哈希算法应用到医学图像检索领域并取得了显著的效果.

Lu等^[29]结合模糊逻辑技术和深度神经网络提出深度模糊哈希，利用模糊规则来模拟数据背后的不确定性. Wang等^[30]提出基于细粒度相关分析的医学图像检索，有效减少了医学图像中的冗余信息. Xu等^[31]针对医学图像提出多流形深度判别跨模态哈希，多模态流形相似性集成了异构数据上的多个子流形以保持实例之间的相关性. Yang等^[32]提出一个名为CenterHash的深度贝叶斯哈希学习框架，它可以将多模态数据映射到共享的Hamming空间，并从不平衡的多模态神经图像中学习哈希码，解决了类间差异小和模态间差异大所造成的难题.

1.2. Patch编码器

假设输入图像I∈R^H×W×C(其中H，W分别代表图像的高度和宽度，C代表通道数)，首先将I分为N个互不重叠的patch，然后将N个patch展平成二维的patches向量X_P∈R^N×(P²×C)(其中N=HW/P²代表patch的总数)，最后将X_P通过线性映射层映射到D维空间中，形成序列X_P^k∈R^D，k=1，2，…，N. 位置嵌入被添加到patch编码器之后保留位置信息. 与文献[19]不同的是，本研究不使用0号class token，而是将所形成的N个patch进行编码. 具体过程如下：

式中：E∈R^P²×C×D代表线性映射矩阵；E_pos∈R^N×D代表位置嵌入矩阵.

1.3. Transformer编码器

Transformer编码器^[17-19]由L个Transformer块组成，每个Transformer块包含层归一化^[33](Layer Normalization，LN)、多头注意力机制(Multi-Head Attention，MHA)块和多层感知机(Multi-Layer Perceptron，MLP)块，残差连接^[34]分别位于每个块之后. 因此，每个Transformer块的计算公式如下：

式中：MHA，LN和MLP分别代表多头注意力机制块、层归一化以及多层感知机块.

4. 结论与展望

本研究提出一种面向医学图像检索的视觉Transformer哈希(ViTH)算法. 在Transformer编码器的前后端分别加入PMT模块来进一步增强模型的非线性. 鉴于医学图像之间差异性小且难以分辨的问题，本研究在Transformer编码器内部引入MHSPA模块，该模块不仅可以提取图像的全局上下文特征，而且可以提取多尺度的局部上下文特征，并将不同尺度的特征进行融合. 在损失函数方面，本研究不仅考虑了传统的成对损失、量化损失，还添加了平衡损失和分类损失以对哈希码的映射进一步约束. 本研究在ChestX-ray14和ISIC 2018两个医学图像数据集上与其他多个先进的哈希算法进行实验比较，证明了本研究算法在检索性能方面具有较好的优越性，对关键超参数的变化具有鲁棒性.

另外，本研究算法主要应用在两个领域：①医学图像检索与快速诊断. ViTH算法可以支持医生和研究人员快速获取与特定病例相关的图像. 这有助于提高诊断效率，尤其是在紧急情况下迅速获取相关图像进行诊断. ②医学图像相似性分析. ViTH算法可以量化医学图像之间的相似性，从而帮助医学研究人员进行更准确的图像分析.

最后，本研究虽然在ChestX-ray14和ISIC 2018上取得了良好的实验效果，但仍然存在一些局限性：①现实中各疾病的发病概率是不同的，从而导致医学图像数据集中各类别之间存在不均衡现象，因此模型在检索过程中可能更倾向于占比较大的类别. ②本研究仅关注单模态医学图像，对多模态数据并不适用. 这些局限性也将是本团队未来工作中的重要研究方向.

参考文献 (41)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

ViTH: 面向医学图像检索的视觉Transformer哈希改进算法

南通大学信息科学技术学院, 江苏南通 226019

作者简介:
刘传升, 硕士研究生, 主要从事深度学习、多媒体信息检索研究 .

通信作者: 丁卫平, 教授, 博士研究生导师;

ViTH: Improved Vision Transformer Hashing Algorithm for Medical Image Retrieval

School of Information Science and Technology, Nantong University, Nantong Jiangsu 226019, China

计量

ViTH: 面向医学图像检索的视觉Transformer哈希改进算法

通信作者: 丁卫平, 教授, 博士研究生导师;

作者简介: 刘传升, 硕士研究生, 主要从事深度学习、多媒体信息检索研究
南通大学信息科学技术学院, 江苏南通 226019

English Abstract