基于三维时空注意的密集连接视频超分算法-AET-电子技术应用

基于三维时空注意的密集连接视频超分算法

网络安全与数据治理 2期

何啸林，吴丽君

(福州大学物理与信息工程学院，福建福州350116)

摘要： 针对视频超分对时间帧间信息以及分层信息的利用不充分，设计了一种具有空间时序注意力机制的密集可变形视频超分辨率重建网络。利用三维卷积来提取经可变形卷积模块对齐后的相邻帧之间的时间序列信息，同时设计具有步幅卷积层的轻量级模块来提取空间注意力信息。在特征重构阶段引入密集连接，充分利用分层特征信息以实现更好的特征重建。选取公共数据集进行实验验证，结果表明，提出的算法在客观评价指标与视觉对比效果上都有提升。

关键词： 视频超分辨重建三维时空注意力机制可变形卷积密集连接

中图分类号： TP391
文献标识码： A
DOI： 10.19358/j.issn.2097-1788.2023.02.011
引用格式：何啸林，吴丽君. 基于三维时空注意的密集连接视频超分算法[J].网络安全与数据治理，2023，42(2)：70-75.

Densely connected video super-resolution based on three-dimensional spatial-sequential attention

He Xiaolin，Wu Lijun

(College of Physics and Information Engineering，Fuzhou University，Fuzhou 350116，China)

Abstract： Aiming at the insufficient utilization of temporal inter-frame information and hierarchical information in video super-resolution, a dense deformable video super-resolution reconstruction network with spatial-sequential attention mechanism is designed. Three-dimensional convolution is used to extract sequence information between adjacent frames aligned by deformable convolution module, and a lightweight module with strided convolution layer is designed to extract spatial attention information. Dense connections are introduced in the feature reconstruction stage to make full use of hierarchical feature information to achieve better feature reconstruction. The public datasets are selected for experimental verification. The results show that the proposed algorithm has improved both objective evaluation indicators and visual contrast effects.

Key words : video super-resolution；three-dimensional spatial-sequential attention；deformable convolution；dense connection

0 引言

视频超分辨(Video Super-Resolution，VSR)算法是一项具有挑战性的课题，倍受人们的关注。相较于单图像的超分辨率重建，视频超分辨率重建可以利用帧之间的相关性和连续帧间的时间信息。视频超分的目标是在相邻的低分辨率帧(Low Resolution，LR)的帮助下，重建出高分辨率帧(High Resolution，HR)。早期的研究[1-3]将视频超分视为图像重建的简单扩展，并没有考虑到物体运动，性能较差。对此，人们开始研究一些显式运动补偿的方法，最为广泛的是使用光流来估计帧之间的运动并执行变形。然而，对光流进行准确的预测是比较困难的，尤其是在存在遮挡或大运动时，当对光流量的不准确预测时可能会引入伪影[4]。为了解决这个问题，研究人员开始研究隐式运动补偿方法。在隐式补偿方法中，可变形卷积较为常用[5]。时序可变形对齐视频超分网络(Temporally Deformable Alignment Network，TDAN)[4]首次将可变形卷积引入视频超分任务中；增强型可变形卷积视频超分网络(Video Restoration with Enhanced Deformable Convolutional Networks，EDVR)[6]将跨帧信息与可变形网络和注意力机制融合在一起。相比光流法，可变形卷积的方法解决了伪影问题，但注意力机制的设计仍有改进空间。对于连续帧的视频任务，视频的序列信息是至关重要的。由于在时间注意力模块中仅仅采用二维卷积，无法提取时间序列维度的信息，以往方法中的时空注意力模块仅仅只是在两帧之间进行自注意力加权。

本文设计了一种具有三维空间顺序注意机制的密集可变形视频超分辨率重建网络。在视频帧对齐模块之后引入空间时序注意力模块，利用三维卷积操作来捕获帧间序列信息。在超分任务中，引入空间注意力中金字塔结构使得网络能够获得更大的感受野，但也带来了冗余参数。本文通过几个卷积层和池化层的组合来重新设计空间注意模块，利用更少的参数保持一个大的感受野。此外，为了在特征重建阶段充分利用分层特征，设计了一个由密集连接和残差组成的密集连接重建模块。

综上所述，本文设计了一种三维空间时序注意力机制。应用三维卷积来获取时间注意模块中的帧间序列信息。在空间注意力模块中，修改卷积的步长，使用卷积组结合池化来实现轻量化。同时设计密集连接重建模块，通过密集连接充分利用分层特征信息，更好地完成特征重建。

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000005216

作者信息：

何啸林，吴丽君

(福州大学物理与信息工程学院，福建福州350116)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容