基于时空注意力金字塔卷积的动作识别-AET-电子技术应用

基于时空注意力金字塔卷积的动作识别

网络安全与数据治理 2期

冯雨威，吴丽君

(福州大学物理与信息工程学院，福建福州350108)

摘要：动作识别算法需要从视频中提取空间和时域特征，对计算存储资源要求较高。基于2D CNN的网络更为轻量，但从视频中提取时域特征的能力较弱，动作识别性能通常受到限制。S-TPNet提出时空金字塔模块以获取图像序列的时间粒度特征，有效提升了基于2D CNN的动作识别网络的性能。基于S-TPNet，设计了时空注意力模型以凸显空间和时间上的重要特征。为降低输入数据量，通常抽取局部视频帧作为输入，为降低采样帧与整体视频之间的不稳定差异，设计了自适应等间隔采样策略。实验表明，在未预训练的情况下，本网络在UCF-101和HMDB-51数据集上分别将Top-1精度提高了5.1%和3.3%，并且不会大幅增加所需参数。

关键词： 时空注意力动作识别自适应采样 2DCNN 时空金字塔

中图分类号：TP391
文献标识码：A
DOI：10.19358/j.issn.2097-1788.2023.02.012
引用格式：冯雨威，吴丽君. 基于时空注意力金字塔卷积的动作识别[J].网络安全与数据治理，2023，42(2)：76-82，88.

Action recognition based on spatial-temporal attention pyramid convolution

Feng Yuwei，Wu Lijun

(College of Physics and Information Engineering，Fuzhou University，Fuzhou 350108，China)

Abstract：Action recognition algorithms need to extract spatial and temporal features from video, which requires high computing and storage resources. The network based on 2D CNN is lighter, but the ability to extract time-domain features from video is weak, and the performance of action recognition is usually limited. S-TPNet proposes a spatial-temporal pyramid module to obtain the time granularity features of image sequences, which effectively improves the performance of the action recognition network based on 2D CNN. Based on S-TPNet, this paper designs a spatial-temporal attention model to highlight the important features of space and time. In order to reduce the amount of input data, local video frames are usually extracted as input. In order to reduce the unstable difference between the sampled frames and the overall video, this paper designs an adaptive equal interval sampling strategy. The experiment shows that without pre training, the network improves Top-1 accuracy by 5.1% and 3.3% on UCF-101 and HMDB-51 datasets, respectively, and does not significantly increase the required parameters.

Key words :spatial-temporal attention；action recognition；adaptive sampling；2D CNN；spatial-temporal pyramid

0 引言

动作识别是从视频片段中提取有效的空间和时间特征以分辨人的动作类型，在视频检索、异常检测、智能监控、人机交互和自动驾驶等领域逐渐兴起。早期算法主要依赖人工提取人体关节点和时空兴趣点特征。近年来，基于深度学习的算法可有效提取特征、实现端到端训练，极大提升了动作识别精度和速度。根据提取特征的方式不同，动作识别算法大致可归纳为基于3D CNN、双/多流网络、CNN(2D或3D)与时间特征聚合模块的组合三种类型。3D CNN[1-2]可直接提取时空特征，但是其采用固定大小的3D卷积核，不能充分挖掘时间粒度特征，并且相比2D卷积核含有更多参数。双流网络[3]的输入通常为RGB帧和光流图像，提取光流较为繁琐且易造成延迟。基于CNN与时间特征聚合模块[4-5]组合的算法通常使用CNN从单帧或视频片段提取空间特征，然后使用LSTM或时间池化从多个帧或片段间提取时间特征。LSTM随着时间跨度增大、网络深度增加，计算成本将急剧增加。

基于2D CNN与时间池化的S-TPNet[6]提出了空间金字塔模块，利用CNN固有的平移和尺度不变性充分提取空间特征，并使用不同尺寸的时间池重复利用片段级数据以获得时间粒度特征。相比于3D CNN的算法，S-TPNet网络参数大大减少，但在动作识别精度上相对较低。因此，本文在S-TPNet基础上引入轻量级的时空注意力模型，以提高算法精度。

除网络结构外，视频采样策略也会影响动作识别精度。为减少输入信息的冗余数量，降低运算量，一般会提取原视频的部分帧来作为输入。视频采样策略主要分为密集[7]和稀疏采样两种。密集采样对设备的计算和存储要求都很高。最近，微软在视频和语言学习任务研究[8]中提出“少即是多”的稀疏采样。在每次训练中仅使用单个或几个稀疏采样片段，获得了不输于密集采样训练所得的网络性能。稀疏采样包含随机采样和预定义间隔采样。随机采样易导致采样后的相邻帧之间具有不稳定的差异，无法有效表达原始视频的语义内容。预定义间隔采样不适合数据集中视频段持续时间差距较大的情况。因此，本文提出了一种自适应等间隔采样策略，根据每段视频的总帧数和指定的最小采样数动态调整采样间隔，使采样后序列可以更好地表示原视频。

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000005217

作者信息：

冯雨威，吴丽君

(福州大学物理与信息工程学院，福建福州350108)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容