一种双三次插值实时超分辨率VLSI设计

张思言; 杜周南; 任一心; 邓涛; 唐曦

doi:10.13718/j.cnki.xdzk.2024.04.019

一种双三次插值实时超分辨率VLSI设计

西南大学物理科学与技术学院，重庆 400715

基金项目: 国家重点研发计划项目(2023YFB2905403)；重庆市教委科学技术研究重点项目(KJZD-K202100204)；重庆市自然科学基金项目(CSTB2023NSCQ-MSX0120)

详细信息

作者简介:
张思言，硕士研究生，主要从事图像处理研究 .

通信作者: 唐曦，博士，高级实验师

中图分类号: TP301.6

A Real Time Super Resolution VLSI Design Based on Bicubic Interpolation

School of Physical Science and Technology, Southwest University, Chongqing 400715, China

摘要:
视频超分辨率技术具有广阔的应用前景，但基于深度学习方法的算法复杂度过高，难以实现实时计算. 因此，近年来研究者们开始探索基于现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)的超分辨率算法加速器，以利用FPGA的优势来提高算法的性能和能耗，实现实时的视频超分辨率. 设计了一种基于FPGA的高效高速双三次线性插值超大规模集成电路(Very Large Scale Integration Circuit，VLSI)架构，可用于4倍实时视频超分辨率. 该FPGA架构解决了实现双三次插值过程中所需的复杂内存访问模式的问题，并提出了一种基于乒乓操作的数据重排硬件设计，将算法输出的特定顺序数据重新以行为主进行排列，使得硬件能够直接或较为简单地对接HDMI等视频接口. 此外，采用状态机、流水线等方式降低设计功耗和减少时序违例，使得整个硬件设计可以更高频率运行. 本研究在Zynq-7020 FPGA上实现了硬件架构，能够实时将qHD(960×540)的视频超采样为UHD(3 840×2 160)高清视频. 实验结果表明，该硬件设计只需缓存1行图像像素，延迟仅为9.6 μs，帧率达到192.9 Hz，成功实现实时处理. 游戏图像数据集的测试结果表明，该设计峰值信噪比最高可达35.67 dB，结构相似度达到96.3%.
- 双三次插值 /
- 实时超分辨率 /
- 现场可编程逻辑门阵列 /
- 超大规模集成电路
Abstract:
Video super-resolution technology has broad application prospects, but the algorithm complexity based on deep learning methods is too high to achieve real-time computation. In recent years, researchers have begun to explore super-resolution algorithm accelerators based on FPGA, in order to utilize the advantages of FPGA to improve algorithm performance and energy consumption, and achieve real-time video super-resolution. In this paper, an efficient high-speed bicubic linear interpolation VLSI architecture was designed based on FPGA, which can be used for 4×real-time video super-resolution. The FPGA architecture solved the problem of complex memory access mode required in the process of implementing bicubic interpolation, and proposed a hardware design of data rearrangement based on ping-pong operation, which rearranged the data in a specific order output by the algorithm into a row-major data arrangement, so that the hardware can directly connect to video interfaces such as HDMI. In addition, state machine, loop unrolling, pipeline and other methods were used to reduce design power consumption and timing violations, so that the entire hardware design can run at a higher frequency. The hardware architecture was implemented on Zynq-7020 FPGA, which enabled real-time oversampling of qHD (960×540) videos to UHD (3 840×2 160) high-definition videos. The experimental results show that the hardware design only needs to cache one row of image pixels with a latency of only 9.6 μs and a frame rate of 192.9 Hz, and successfully achieves real-time processing. The test results on the game image dataset show that the design has a peak signal-to-noise ratio of up to 35.67 dB and a structural similarity of 96.3%.
- bicubic interpolation /
- real-time super-resolution /
- field programmable gate array (FPGA) /
- very large scale integration circuit (VLSI) .

图 1 硬件设计数据流程图

下载: 全尺寸图片幻灯片

图 2 行缓存的更新方式示意图

下载: 全尺寸图片幻灯片

图 3 输入图小块的更新方式示意图

下载: 全尺寸图片幻灯片

图 4 流水线PE设计流程图

下载: 全尺寸图片幻灯片

图 5 缓存阵列读写示意图

下载: 全尺寸图片幻灯片

图 6 量化对性能指标和硬件资源使用量的影响

下载: 全尺寸图片幻灯片

图 7 4倍上采样常见游戏影音图片的效果对比图

下载: 全尺寸图片幻灯片

表 1 OpenCV的bicubic实现与本文硬件实现在游戏测试图片中的性能比较

图片编号	OpenCV PSNR	OpenCV SSIM	本文实现的PSNR	本文实现的SSIM
0	31.27	0.856	31.21	0.856
1	29.50	0.846	29.41	0.845
2	28.84	0.855	28.76	0.855
3	32.06	0.853	31.98	0.853
4	33.31	0.928	33.15	0.928
5	32.44	0.921	32.20	0.920
6	34.33	0.938	34.26	0.938
7	33.96	0.924	33.80	0.923
8	34.61	0.940	34.43	0.939
9	32.64	0.897	32.52	0.896
10	32.10	0.883	31.97	0.882
11	32.38	0.898	32.27	0.896
12	34.17	0.938	33.99	0.936
13	35.32	0.962	34.98	0.960
14	34.91	0.936	34.68	0.934
15	31.50	0.882	31.41	0.880
16	29.65	0.845	29.54	0.843
17	35.94	0.940	35.62	0.936
18	36.20	0.936	36.00	0.935
19	34.00	0.913	33.81	0.912
平均	32.956 5	0.904 55	32.799 5	0.903 35

下载: 导出CSV

表 2 运行速率比较

实现	工作频率	帧率	设备	放大倍数	输出图片大小	乘法器数量
软件	4.9 GHz	7.4 Hz	酷睿i7-12700	4	3 840×2 160	-
Nuno等^[14]	100 MHz	95.24 Hz	Virtex-II Pro	任意	640×480	60
Zhang等^[15]	-	-	-	-	-	20
本文的实现	100 MHz	192.9 Hz	Zynq-7020	4	3 840×2 160	960
注：“-”表示该项数值并未提供.

下载: 导出CSV

[1]	张芳, 赵东旭, 肖志涛, 等. 单幅图像超分辨率重建技术研究进展[J]. 自动化学报, 2022, 48(11): 2634-2654.
[2]	AGUSTSSON E, TIMOFTE R, VAN GOOL L. Anchored Regression Networks Applied to Age Estimation and Super Resolution[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 1652-1661.
[3]	CHEN M J, HUANG C H, LEE W L. A Fast Edge-Oriented Algorithm for Image Interpolation[J]. Image and Vision Computing, 2005, 23(9): 791-798. doi: 10.1016/j.imavis.2005.05.005
[4]	CHOI J S, KIM M. Super-Interpolation with Edge-Orientation-Based Mapping Kernels for Low Complex 2×Upscaling[J]. IEEE Transactions on Image Processing, 2016, 25(1): 469-483. doi: 10.1109/TIP.2015.2507402
[5]	DONG C, LOY C C, HE K M, et al. Learning a Deep Convolutional Network for Image Super-Resolution[C]//European Conference on Computer Vision. Cham: Springer, 2014: 184-199.
[6]	TIMOFTE R, DE SMET V, VAN GOOL L. A+: Adjusted Anchored Neighborhood Regression for Fast Super-Resolution[C]//Asian Conference on Computer Vision. Cham: Springer, 2015: 111-126.
[7]	LI X, ORCHARD M T. New Edge Directed Interpolation[C]//Proceedings 2000 International Conference on Image Processing (Cat. No. 00CH37101). Vancouver, BC, Canada. IEEE, 2002: 311-314.
[8]	YANG C Y, YANG M H. Fast Direct Super-Resolution by Simple Functions[C]//2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia. IEEE, 2013: 561-568.
[9]	CHANG J W, KANG K W, KANG S J. An Energy-Efficient FPGA-Based Deconvolutional Neural Networks Accelerator for Single Image Super-Resolution[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(1): 281-295. doi: 10.1109/TCSVT.2018.2888898
[10]	KIM Y, CHOI J S, KIM M. 2X Super-Resolution Hardware Using Edge-Orientation-Based Linear Mapping for Real-Time 4K UHD 60 Fps Video Applications[J]. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2018, 65(9): 1274-1278. doi: 10.1109/TCSII.2018.2799577
[11]	LEE J, PARK I C. High-Performance Low-Area Video Up-Scaling Architecture for 4-K UHD Video[J]. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2017, 64(4): 437-441. doi: 10.1109/TCSII.2016.2563818
[12]	SHIAU Y H, HUANG K Y, CHEN P Y, et al. A Low-Cost Hardware Design of Learning-Based One-Dimensional Interpolation for Real-Time Video Applications at the Edge[J]. IEEE Journal on Emerging and Selected Topics in Circuits and Systems, 2021, 11(4): 677-689. doi: 10.1109/JETCAS.2021.3121070
[13]	SIVA M V, JAYAKUMAR E P. A Low Cost High Performance VLSI Architecture for Image Scaling in Multimedia Applications[C]//2020 7th International Conference on Signal Processing and Integrated Networks (SPIN). Noida, India. IEEE, 2020: 278-283.
[14]	NUNO-MAGANDA M A, ARIAS-ESTRADA M O. Real-time FPGA-based Architecture for Bicubic Interpolation: An Application for Digital Image Scaling[C]//2005 International Conference on Reconfigurable Computing and FPGAs (ReConFig'05). Puebla, Mexico. IEEE, 2005: 8-11.
[15]	ZHANG Y S, LI Y H, ZHEN J, et al. The Hardware Realization of the Bicubic Interpolation Enlargement Algorithm Based on FPGA[C]//2010 Third International Symposium on Information Processing. Qingdao, Shandong, China. IEEE, 2020: 277-281.
[16]	KEYS R. Cubic Convolution Interpolation for Digital Image Processing[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1981, 29(6): 1153-1160. doi: 10.1109/TASSP.1981.1163711
[17]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[EB/OL]. (2014-10-22)[2024-02-22]. https://arxiv.org/pdf/1311.2524.pdf.
[18]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Image Net Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386
[19]	SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. (2015-04-10)[2024-02-22]. https://arxiv.org/pdf/1409.1556v6.pdf.
[20]	ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional Networks[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA. IEEE, 2010: 2528-2535.
[21]	ZHANG X Y, DAS S, NEOPANE O, et al. A Design Methodology for Efficient Implementation of Deconvolutional Neural Networks on an FPGA[EB/OL]. (2017-05-07)[2022-10-09]. https://arxiv.org/abs/1705.02583v1.

图( 7) 表( 2)

计量

文章访问数: 6732
HTML全文浏览数: 6732
PDF下载数: 1030
施引文献: 0

全文HTML

开放科学(资源服务)标识码(OSID):
近年来，由于显示技术的发展，显示器的制造成本逐渐降低，支持4K超高清(UHD)分辨率的电视机在市场上成为主流. 然而，主流的视频源还是以高清(HD)和全高清(FHD)分辨率为主，因此，高质量的实时视频超分辨率技术对于4K影音系统的发展十分关键. 目前，超分辨率方法已被广泛研究，学者们提出了各种解决方案^[1-8]，这为本文的研究工作提供了重要的理论基础. 然而，要做到实时计算，现有的冯·诺依曼架构计算机难以满足技术要求，因此对新硬件的设计需求迫在眉睫^[9-13].

图像超分辨率重建是一个病态问题(ill-posed)，它需要从一个低维的LR(Low Resolution)图像估计出一个高维的HR(High Resolution)图像. 设低分辨率图像y是由高分辨率图像x通过一系列变换得到的：

式中：D为亚采样矩阵，B为光学模糊矩阵，W为几何运动模糊矩阵. 显然，存在多个x的解可以得到同一个y. 从信息论的角度而言，在亚采样的过程中，一部分信息已丢失，已经无法还原出x. 因此图像超分辨率技术具有很大的研究与应用价值.

双三次插值作为一种经典的超分辨率算法，具有能够高质量重建图像的特点，但其计算复杂度较高. 对于2倍超分辨率问题，假设图像的高宽为m×n，那么时间复杂度为O(64mn). 因此，设计基于现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)的双三次插值高效硬件架构需要解决几个难题. 第一，需要设计复杂内存访问模式，以高效地获取数据，减少功耗. 低效的内存获取会导致运算的暂停，一般的方法是使用行缓存，然而使用过多的片上内存(On-chip Memory)又会对FPGA的性能带来更多要求，难以得到广泛应用. 第二，需要设计高效的处理单元(Processing Element，PE)和控制电路，以最大化设计建立时间的余量，使得系统能够高速运行. 第三，还需考虑量化对精度的损失，FPGA中缺少对浮点数大量运算的支持，而且使用跳转表(Look-up Table，LUT)实现浮点数运算的过程十分复杂，需要大量资源，因此需要对模型进行量化. 第四，模型量化可以大幅度降低资源的使用量，比如8位的加法器比10位的加法器少20%的资源使用量，因此需要考虑量化损失和资源使用量的平衡. 最后，需要设计PE输出数据的重排电路，这是因为PE的输出为包含多个行的图片块的形式，无法直接按行排列输出图像. 设计好重排电路后，即可简单地与常见的视频接口对接，直接将视频数据输出到显示器中.

Nuno等^[14]将双三次插值算法分解为3个主要模块. 第1个模块生成插值系数，第2个模块执行双三次插值，第3个模块是控制单元. 因此，第2个模块对应算法的核心部分. 双三次插值公式在4个并行子模块中实现，每个子模块代表该方程的4行之一. 该设计在Virtex-Ⅱ Pro FPGA上实现，观察到的最大工作频率为100 MHz. 在这种情况下，需要32个乘法器和890个逻辑块(LBs)来支持算法的运行. Zhang等^[15]将相邻像素之间的间隔分为8个子间隔. 每个子间隔的系数在离线计算后存储起来，以便每次进行插值时使用. 该方法的准确性取决于子间隔的数量. 然而，这种架构的缺点是插值质量较差且内存利用率高. 另外，作者没有提供该设计的硬件资源成本.

本文提出的双三次插值架构中，提供了一种有效的实时双三次插值硬件实现，以达到比现有实现更低的内存访问次数和运行速度，并提出了基于该双三次插值硬件实现的完整视频超分辨率硬件系统. 本文的贡献如下：①提出了一种内存访问方案，称为移位寄存器反转块遍历(Shift Register Reverse Block Traversing，SRRBT)，用来高效获取图像数据，为PE提供连续的数据流；②设计了高效的流水线PE，并使用状态机、流水线等优化方式提高设计的运行频率，降低资源的使用率；③提出了一种PE输出重排方法，称为同余缓存阵列(Modulo Buffer Matrix，MBM)，以连续按行排列输出像素点；④分析了量化位宽对算法精度的影响，并在不太影响精度的前提下降低量化位宽；⑤在Zynq-7020 FPGA上实现和验证了1个960×540到3 840×2 160的4倍实时超分辨率系统.

1. 双三次插值

在数学上，双三次插值是对三次拉格朗日插值在二维平面上的扩展，其插值得到的表面比最近邻插值、双线性插值更加光滑，具有更高的图像质量，因此被广泛用于图像处理.

双三次插值通常通过在两个维度上卷积Sa函数的多项式近似来计算，Keys提出^[16]的卷积所用核函数为：

式中：a为核函数系数. Keys指出，当a=-0.5时，关于采样间隔的收敛率可以达到三阶.

如果取a=-0.5，设f(t)为待插值的函数，且已知-1，0，1，2处的4个点f_-1，f₀，f₁，f₂，那么由W(x)得出的插值函数p(t)可以写为：

双三次插值使用1个点的邻域16个点对其进行插值，分x，y 2个方向使用三次插值进行计算. 每次三次插值时，HR图像点邻域的4个LR图像像素点坐标设为-1，0，1，2，那么在4倍缩放的情况下，HR图像点的坐标，也就是t的取值只有固定的4个值，即$t=\frac{1}{8}, \frac{3}{8}, \frac{5}{8}, \frac{7}{8}$，这样p(t)可以重新写成$p_i=p\left(\frac{2(i-1)+1}{8}\right)$的形式，i=1，2，3，4：

式中：w_i为4维权重向量，$\boldsymbol{f}=\left[\begin{array}{llll}f_{-1} & f_0 & f_1 & f_2\end{array}\right]^T$. 这样，1个方向的一次插值可以简化为四次乘累加(Multiply Accumulate，MAC).

4. 结论

本文提出了一种基于FPGA的高效高速双三次线性插值硬件架构设计用于实时视频超分辨率. 所提设计的主要优点在于其设计的高速性和简洁性，并易于集成到现成的影音系统中. 总之，本文平衡了硬件成本和质量，实现了一个低成本、低功耗、高质量、易集成的超分辨率重建硬件系统，用于从qHD到UHD的4倍实时超分辨率，可以满足UHD游戏影音体验等应用场景的需求.

参考文献 (21)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

一种双三次插值实时超分辨率VLSI设计

西南大学物理科学与技术学院，重庆 400715

作者简介:
张思言，硕士研究生，主要从事图像处理研究 .

通信作者: 唐曦，博士，高级实验师

A Real Time Super Resolution VLSI Design Based on Bicubic Interpolation

School of Physical Science and Technology, Southwest University, Chongqing 400715, China

计量

一种双三次插值实时超分辨率VLSI设计

通信作者: 唐曦，博士，高级实验师

作者简介: 张思言，硕士研究生，主要从事图像处理研究
西南大学物理科学与技术学院，重庆 400715

English Abstract

A Real Time Super Resolution VLSI Design Based on Bicubic Interpolation

Corresponding author: TANG Xi

全文HTML

2.1. 卷积核遍历方式

2.2. 流水线PE设计

2.3. 输出重排电路

目录

留言板

一种双三次插值实时超分辨率VLSI设计

西南大学 物理科学与技术学院，重庆 400715

作者简介: 张思言，硕士研究生，主要从事图像处理研究 .

通信作者: 唐曦，博士，高级实验师

A Real Time Super Resolution VLSI Design Based on Bicubic Interpolation

School of Physical Science and Technology, Southwest University, Chongqing 400715, China

计量

出版历程

一种双三次插值实时超分辨率VLSI设计

通信作者: 唐曦，博士，高级实验师

作者简介: 张思言，硕士研究生，主要从事图像处理研究 西南大学 物理科学与技术学院，重庆 400715

English Abstract

A Real Time Super Resolution VLSI Design Based on Bicubic Interpolation

Corresponding author: TANG Xi

全文HTML

2.1. 卷积核遍历方式

2.2. 流水线PE设计

2.3. 输出重排电路

目录

西南大学物理科学与技术学院，重庆 400715

作者简介:
张思言，硕士研究生，主要从事图像处理研究 .

作者简介: 张思言，硕士研究生，主要从事图像处理研究
西南大学物理科学与技术学院，重庆 400715