利用人工智能神经网络体系结构生成视觉问答系统中的自然语言解释

原蕾; 王科俊

doi:10.13718/j.cnki.xdzk.2024.10.018

高楠, 彭鼎原, 傅俊英, 等. 基于专利IPC分类与文本信息的前沿技术演进分析——以人工智能领域为例[J]. 情报理论与实践, 2020, 43(4): 123-129.

朱翌, 李秀. 医学图像描述综述: 编码、解码及最新进展[J]. 中国图象图形学报, 2023, 28(7): 1990-2010.

叶仕俊, 张鹏程, 吉顺慧, 等. 人工智能软件系统的非功能属性及其质量保障方法综述[J]. 软件学报, 2023, 34(1): 103-129.

GUO Z H, HAN D Z. Sparse Co-Attention Visual Question Answering Networks Based on Thresholds[J]. Applied Intelligence, 2023, 53(1): 586-600. doi: 10.1007/s10489-022-03559-4

CONG F Z, XU S B, GUO L, et al. Anomaly Matters: an Anomaly-Oriented Model for Medical Visual Question Answering[J]. IEEE Transactions on Medical Imaging, 2022, 41(11): 3385-3397. doi: 10.1109/TMI.2022.3185113

秦志金, 赵菼菼, 李凡, 等. 多模态语义通信研究综述[J]. 通信学报, 2023, 44(5): 28-41.

朱明婷, 徐崇利. 人工智能伦理的国际软法之治: 现状、挑战与对策[J]. 中国科学院院刊, 2023, 38(7): 1037-1049.

TRUONG L X, PHAM V Q, VAN NGUYEN K. Transformer-Based Approaches for Multilingual Visual Question Answering[J]. International Journal of Asian Language Processing, 2022, 32(4): 1-18.

王虞, 孙海春. 视觉问答技术研究综述[J]. 计算机科学与探索, 2023, 17(7): 1487-1505.

高鸿斌, 毛金莹, 王会勇. K-VQA: 一种知识图谱辅助下的视觉问答方法[J]. 河北科技大学学报, 2020, 41(4): 315-326.

LI H Y, HAN D Z. Multimodal Encoders and Decoders with Gate Attention for Visual Question Answering[J]. Computer Science and Information Systems, 2021, 18(3): 1023-1040. doi: 10.2298/CSIS201120032L

SHARMA H, SRIVASTAVA S. Visual Question Answering Model Based on the Fusion of Multimodal Features by a Two-Way Co-Attention Mechanism[J]. The Imaging Science Journal, 2021, 69(1-4): 177-189. doi: 10.1080/13682199.2022.2153489

GUO Z H, HAN D Z. Sparse Co-Attention Visual Question Answering Networks Based on Thresholds[J]. Applied Intelligence, 2023, 53(1): 586-600. doi: 10.1007/s10489-022-03559-4

ZHU H, TOGO R, OGAWA T, et al. Multimodal Natural Language Explanation Generation for Visual Question Answering Based on Multiple Reference Data[J]. Electronics, 2023, 12(10): 1-19.

BAZIY, RAHHALM M A, BASHMALL, et al. Vision-LanguageModel for Visual Question AnsweringinMedicalImagery[J]. Bioengineering, 2023, 10(3): 1-17.

XUX, WANGT, YANGY, et al. RadialGraph Convolutional Network for Visual Question Generation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(4): 1654-1667.

CAO F Q, LUO S W, NUNEZ F, et al. SceneGATE: Scene-Graph Based Co-Attention Networks for Text Visual Question Answering[J]. Robotics, 2023, 12(4): 1-18.

刘传. 基于门控图卷积网络和协同注意力的视觉问答[J]. 计算机与数字工程, 2023, 51(4): 860-865.