kaiyun官方注册
您所在的位置: 首页> 人工智能> 设计应用> 基于边缘增强和多尺度时空重组的视频预测方法
基于边缘增强和多尺度时空重组的视频预测方法
网络安全与数据治理
吴孔贤,郑明魁
福州大学 物理与信息工程学院
摘要:针对当前视频预测算法在生成视频帧时细节模糊、精度较低的问题,提出了一种基于边缘增强和多尺度时空重组的视频预测方法。首先通过频域分离技术,将视频帧划分为高频信息和低频信息,并对二者分别进行针对性处理。其次,设计了高频边缘增强模块,专注于高频边缘特征的学习与优化。同时,引入多尺度时空重组模块,针对低频结构信息,深入挖掘其时空依赖性。最终将高低频特征进行充分融合,用以生成高质量的预测视频帧。实验结果表明,与现有先进算法相比,该方法在预测性能上实现了提升,充分验证了其有效性。
中图分类号:TP181 文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.03.004
引用格式:吴孔贤,郑明魁. 基于边缘增强和多尺度时空重组的视频预测方法[J].网络安全与数据治理,2025,44(3):22-26.
A video prediction method based on edge enhancement and multi-scale spatio-temporal reorganisation
Wu Kongxian,Zheng Mingkui
School of Physics and Information Engineering,Fuzhou University
Abstract:Aiming at the current video prediction algorithms with blurred details and low accuracy in generating video frames, a video prediction method based on edge enhancement and multiscale spatio-temporal reorganisation is proposed. Firstly, the video frame is divided into high-frequency information and low-frequency information through the frequency domain separation technique, and the two are targeted separately. Secondly, a high-frequency edge enhancement module is designed to focus on the learning and optimisation of high-frequency edge features. At the same time, a multi-scale spatio-temporal restructuring module is introduced to target the low-frequency structural information and deeply excavate its spatio-temporal dependence. Ultimately, the high and low frequency features are fully fused and used to generate high-quality predictive video frames. The experimental results show that compared with the existing advanced algorithms, the proposed method achieves an improvement in prediction performance, which fully validates its effectiveness.
Key words :video prediction; frequency domain separation; edge enhancement; multi-scale spatio-temporal reorganisation

引言

视频预测[1]旨在通过分析现有的视频帧来预测未来帧的内容,是一项逐像素的预测任务。视频预测对于自动驾驶[2]、动作预测[3]、天气预测[4]等领域具有重要研究意义。与图像分类和目标检测等传统的计算机视觉任务不同,视频预测要求模型在时间和空间维度上双重建模,从而捕捉到场景的动态变化和长期的依赖关系。然而,视频中物体突然变化的运动轨迹以及复杂多样的背景信息使得预测任务变得困难。

以往的视频预测模型主要是基于卷积长短期记忆网络(Convolutional Long Short-Term Memory, ConvLSTM)[4]及其一系列变体来建模时空特性。ConvLSTM通过在长短期记忆网络(LSTM)单元中引入卷积运算,有效地捕捉了时空数据中的局部空间特征和全局时间动态。其变体PredRNN[5] (Predictive RNN) 提出了一种新的时空记忆单元,并将状态信息沿之字形进行水平和垂直方向的传递和更新。PredRNN++[6]在PredRNN基础上进行改进,提出了因果长短时记忆单元(Causal LSTM)和梯度高速公路单元(Gradient Highway Unit, GHU)来对长短期时空依赖进行自适应学习,并缓解梯度消失问题。同样采用此递归循环策略来进行模型推理的还有MIM (Memory In Memory)[7] 、 E3D-LSTM(Eidetic 3D LSTM)[8]、MAU (Motion-Aware Unit)[9]、MotionRNN (Motion Recurrent Neural Network)[10] 等。这些递归模型通过学习历史信息的隐藏状态来生成预测帧,当前帧的生成依赖于上一帧的预测帧。然而,随着预测帧序列的长度增加,早期预测帧中的误差会被逐步传递和累积,导致后续预测帧的质量和准确性逐渐下降。

近年来的方法中,SimVP(Simpler yet better Video Prediction)[11]打破了这种依靠循环神经网络(RNN)堆叠的单帧输入单帧输出架构的局限性。该方法完全依赖卷积来建模时空相关性,采用多帧输入多帧输出(MIMO)的架构,将所有输入一次性输入到编码器中,并从解码器输出所有预测帧。后续相关工作进一步改进了时间注意力单元(Temporal Attention Unit,TAU)[12],专注于帧内和帧间相关性。朱俊宏等[13]也提出了一种卷积与内卷算子结合的中间模块,让模型拥有多个不同大小的感受野,来提高模型的准确性。李卫军等[14]通过建立门控时空注意力机制来学习时空变化特征,取得一定效果。虽然此类方法取得了一定研究进展,但仍然存在一些需要改进的问题。例如,此类方法都采用编码器、翻译器、解码器结构,将高维的视频序列通过卷积下采样转换为低维的潜在表示,再经过翻译器进行时空的学习,最后由解码器完成对视频序列的预测。此过程通过跨步卷积下采样实现降维,会造成像素的丢失,导致图像细节被忽略,从而导致预测帧细节不够清晰的问题。其次,翻译器在捕捉时空信息方面的不足是导致视频预测效果不理想的关键因素。

针对以上问题,本文提出了基于边缘增强多尺度时空重组的视频预测方法,具体贡献如下:

(1)引入小波变换分离高低频特征并实现下采样操作,避免了卷积下采样造成的像素信息丢失的问题,有效地保留了图像的细节特征。

(2)设计了一种高频边缘增强模块,通过一阶 Sobel 卷积算子提取垂直和水平边缘信息,并结合小核卷积对边缘特征进行精细化增强处理,提升模型对高频信息中细节和纹理特征的敏感性。

(3)设计了一种多尺度时空重组模块,采用不同尺度的卷积核对视频的时空信息进行提取,并通过交叉连接进行交互式特征重组,强化了不同感受野下时空信息的融合能力,实现更丰富的时空特征表达。


本文详细内容请下载:

http://www.chinaaet.com/resource/share/2000006373


作者信息:

吴孔贤,郑明魁

(福州大学 物理与信息工程学院,福建福州350108)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。
Baidu
map