Feature Extraction of Action Recognition Based on Spark

JING Yu-qin; XIA Shu-yin

doi:10.13718/j.cnki.xsxb.2021.07.020

Aiming at the problems of large-scale motion recognition time and low recognition accuracy, a parallel solution method for feature extraction based on the Spark framework has been proposed. Using the memory computing advantage of Spark, the video data is divided into videos or frames and placed into an elastic distribution. the subsequent processing in the RDDS, for the mainstream deep learning feature extraction methods: trajectory-pooled deep-convolutional descriptors, latent concept descriptor and improved dense trajectory, distributed parallel steps are given and designed the vector of locally aggregated descriptors VLAD distributed encoding algorithm aggregates the extracted features into a global representation and then inputs them into the deep learning model classifier to identify the actions in the video. Experimental results show that the method in this paper improves the real-time performance of human action recognition, and the trade-off between recognition accuracy and processing time of LCD is better than other methods.

HTML

相比其他技术，如环境传感器和可穿戴传感器，视频图像动作识别技术具有更高的效率和更低的成本，然而由于人类姿势和图像质量的大量变化，人类行为的可靠检测对于研究者来说仍然是一项极具挑战性的工作^[1-3]. 人类行为识别(Human Action Recognition，HAR)是将人类行为转化为数字行为的过程，具有复杂的动作理解能力，在智能监控、网络视频搜索和检索、病人监护、运动分析、人机交互等多媒体应用中起着重要的作用^[4].

在人类行为识别领域，许多研究者提出了不同的方法来促进该方面的进步. Jalal等^[5]实现了用于姿势估计的身体部位估计与检测，Uddin等^[6]使用深度递归神经网络对翻译和尺度不变特征进行活动识别. 现有典型的两种特征类型为：人造局部特征和深度学习特征提取. 吴亮等^[7]提出了基于时空兴趣点和概率潜动态条件随机场模型的在线行为识别方法，应用时空兴趣点(STIP)对行为特征进行提取，Nguyen等^[8]提出了用于动态纹理识别的密集轨迹(DT)定向光束方法，这类方法在识别上有局限性^[9-10]. 对于深度学习特征方法，Xiao等^[11]提出了分层动态贝叶斯网络的动作识别方法，Yang等^[12]提出的非对称3D卷积神经网络的动作识别方法，打破了识别上的局限性^[13].

对于大规模的特征识别，传统深度方法具有局限性，需要考虑并行化处理方法. 文献[14]实现了MapReduce框架下的深度神经网络特征提取，但是局限性是MapReduce不适合迭代算法. Apache Spark通过使用弹性分布式数据集(RDDS)高效地执行分布式应用程序，更适合分布式视觉算法的开发.

在现有动作识别特征提取算法的基础上，本文提出基于Spark框架的特征提取并行解决方法，实现分布式环境中视频序列提取局部特征. 该方法基于Spark框架，针对现有轨迹池深度卷积描述符(TDD)特征、改进密集轨迹(IDT)和潜在概念描述符(LCD)特征，设计特征提取并行算法，最后设计局部特征聚合描述符(VLAD)并行实现，将提取的局部特征聚合到全局表示中，识别视频中的动作.

1. 特征提取方法

IDT框架与DT的基本框架一致，不同之处是对光流图像的优化、特征正则化方式的改进^[8]. ①估计相机运动来消除背景上的光流以及轨迹；②特征正则化方式由L1范数取代原理的L2范数正则化，能够提升分类准确率.

TDD特征具有人造设计特征和深度学习特征的优点，有区分的卷积特征映射通过深度结构来学习，然后使用轨迹控制的pooling方法融合卷积特征. 首先设计深度的ConvNet提取卷积特征映射，选择具有较好性能的双流ConvNet，该双流ConvNet包含两个单独的ConvNet，即空间网和时间网. 空间网旨在捕获静态外观线索，这些线索在单帧图像上训练，而时间网旨在描述动态运动信息，其输入是堆叠的光流场体积.

双流ConvNets训练完成后，将其视为通用特征提取器，以获取视频的卷积特征映射. 对于每帧或每卷，将其作为空间网络或时间网络的输入. 对时空网络进行两种修改，①删除目标图层之后的图层进行特征提取；②在每个卷积或池化层之前，对层输入进行零填充，通过这种填充可以很容易地将视频中轨迹点的位置映射到卷积特征映射的坐标上. 空间网络和时间网络的输出是卷积特征映射，该卷积特征映射将在下一部分中用于提取TDD.

TDD的提取包括两个步骤：特征映射正则化和轨迹合并. 时空正则化方法可确保每个卷积特征通道在相同间隔内变化，从而对最终TDD识别性能做出同等贡献. 在特征正则化之后，基于轨迹和正则化的卷积特征映射，使用轨迹池提取TDD.

对于卷积神经网络(CNN)潜在概念描述符(LCD)特征，本文CNN架构采用的是2014年ImageNet大规模视觉识别挑战赛牛津大学视觉几何组卷积神经网络分类任务获胜解决方案中具有16个权重层的配置，前13个权重层是卷积层，其中5个紧随其后的是最大合并层，最后3个权重层是全连接层.

2. 基于Spark的分布式特征提取及编码表示

本节设计了在Spark环境中并行LCD提取方法，然后给出了TDD的并行实现方法，给出IDT并行描述，最后设计了VLAD编码的并行实现.

2.1. LCD的分布式表示

在Spark上提取潜在概念描述符：利用CNN特征映射提取深层的局部特征，给定一帧I_t，t=1，…，T，T为视频持续时间，将CNN中间层的过滤器作为特征提取器，将CNN特征映射M_t的像素变成帧I_t中相应补丁的局部特征. 其中，M_t∈R^H×W×C是帧I_t的特征映射，H是高度，W是宽度，C是通道数.

局部特征称为潜在概念描述符(LCD)，为了使群集内存受益，原始视频数据将从分布式文件系统(HDFS)加载到Spark RDDS. 最初，flatMap()函数将视频输入文件作为输入，读取所有帧并将其放入帧RDD中，flatMap()函数由Spark执行，并应用于每个视频以获取所有RGB帧.

进行flatMap()转换后，使用BigDL加载预训练的卷积神经网络(VGG19)模型并将其传递给Map()函数，该函数利用Conv5层将所有RGB帧转换为CNN特征映射. 最后，将帧I_t的CNN特征映射传递给flatMap()函数以获取LCD特征{LCD_{t_j}}，该特征将存储在HDFS中.

2.2. TDD的分布式表示

在Spark上提取轨迹合并的深度卷积描述符：首先采用CNN的中间层来计算视频序列中每个帧的特征映射，通过使用改进轨迹的方法来检测一组轨迹，然后遵循轨迹约束的采样和合并策略，获得深度卷积描述符. 通过在以轨迹点为中心的时空网络上合并局部CNN响应，将卷积特征映射与改进轨迹组合在一起，并将多个标度上的采样点作为IDT的原始实现进行跟踪.

2.3. VLAD编码的分布式表示

在特征提取阶段之后，对局部特征进行编码生成全局表示，该全局表示将在随后的分类阶段中用于训练和测试.

4. 结语

利用Spark提供的内存计算和容错功能来解决大规模的人类动作识别问题，本文提出了基于Spark的分布式动作识别特征提取方法. 设计了用于人类动作识别的几个特征提取的分布式解决方案，包括IDT，LCD，TDD以及VLAD编码的分布式实现. 在数据集UCF101上的实验可以得出，本文方法提高了人类动作识别的实时性能，并具有令人满意的可扩展性，其中LCD在精度和处理时间之间的权衡要比其他特征更好.

Figure (3) Reference (14)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	罗会兰, 童康, 孔繁胜. 基于深度学习的视频中人体动作识别进展综述[J]. 电子学报, 2019, 47(5): 1162-1173. doi: 10.3969/j.issn.0372-2112.2019.05.025 CrossRef Google Scholar
[2]	K S, S S M. Human Detection and Tracking Using HOG for Action Recognition [J]. Procedia Computer Science, 2018, 132: 1317-1326. doi: 10.1016/j.procs.2018.05.048 CrossRef Google Scholar
[3]	JALAL A, KAMAL S, AZURDIA-MEZA C A. Depth Maps-Based Human Segmentation and Action Recognition Using Full-Body Plus Body Color Cues via Recognizer Engine [J]. Journal of Electrical Engineering & Technology, 2019, 14(1): 455-461. doi: 10.1007/s42835-018-00012-w CrossRef Google Scholar
[4]	KIM J, CHI S. Action Recognition of Earthmoving Excavators Based on Sequential Pattern Analysis of Visual Features and Operation Cycles [J]. Automation in Construction, 2019, 104: 255-264. doi: 10.1016/j.autcon.2019.03.025 CrossRef Google Scholar
[5]	JALAL A, NADEEM A, BOBASU S. Human Body Parts Estimation and Detection for Physical Sports Movements [C]// 20192nd International Conference on Communication, Computing and Digital systems (C-CODE). Islamabad: IEEE, 2019. Google Scholar
[6]	UDDIN M Z, KHAKSAR W, TORRESEN J. Activity Recognition Using Deep Recurrent Neural Network on Translation and Scale-Invariant Features [C]//201825th IEEE International Conference on Image Processing (ICIP). Athens: IEEE, 2018. Google Scholar
[7]	吴亮, 何毅, 梅雪, 等. 基于时空兴趣点和概率潜动态条件随机场模型的在线行为识别方法[J]. 计算机应用, 2018, 38(6): 1760-1764. Google Scholar
[8]	NGUYEN T T, NGUYEN T P, BOUCHARA F, et al. Directional Beams of Dense Trajectories for Dynamic Texture Recognition[M]//Advanced Concepts for Intelligent Vision Systems. Cham: Springer International Publishing, 2018. Google Scholar
[9]	YI Y, WANG H L. Motion Keypoint Trajectory and Covariance Descriptor for Human Action Recognition [J]. The Visual Computer, 2018, 34(3): 391-403. doi: 10.1007/s00371-016-1345-6 CrossRef Google Scholar
[10]	YU T Z, WANG L F, DA C, et al. Weakly Semantic Guided Action Recognition [J]. IEEE Transactions on Multimedia, 2019, 21(10): 2504-2517. doi: 10.1109/TMM.2019.2907060 CrossRef Google Scholar
[11]	XIAO Q K, SONG R. Action Recognition Based on Hierarchical Dynamic Bayesian Network [J]. Multimedia Tools and Applications, 2018, 77(6): 6955-6968. doi: 10.1007/s11042-017-4614-0 CrossRef Google Scholar
[12]	YANG H, YUAN C F, LI B, et al. Asymmetric 3D Convolutional Neural Networks for Action Recognition [J]. Pattern Recognition, 2019, 85: 1-12. doi: 10.1016/j.patcog.2018.07.028 CrossRef Google Scholar
[13]	ZHU J G, ZHU Z, ZOU W. End-to-End Video-Level Representation Learning for Action Recognition [C]//201824th International Conference on Pattern Recognition (ICPR). Beijing: IEEE, 2018. Google Scholar
[14]	SINTHONG P, MAHADIK K, SARKHEL S, et al. Scaling DNN-Based Video Analysis by Coarse-Grained and Fine-Grained Parallelism [C]//2020 IEEE International Conference on Multimedia and Expo (ICME). London: IEEE, 2020. Google Scholar

Message Board

Feature Extraction of Action Recognition Based on Spark

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors

Feature Extraction of Action Recognition Based on Spark