基于背景辅助的高效人群计数多任务学习网络

桑军; 刘新悦; 吴志伟; 王富森

doi:10.13718/j.cnki.xsxb.2022.08.001

基于背景辅助的高效人群计数多任务学习网络

重庆大学大数据与软件学院，重庆 401331

基金项目: 面向高度透视复杂场景的人群计数研究(61971073)

详细信息

作者简介:
桑军，教授，博士，主要从事人工智能、计算机视觉、信息安全研究 .

中图分类号: TP391.4

An Efficient Background Assistance Based on Multi-Task Learning Network for Crowd Counting

School of Big Data & Software Engineering, Chongqing University, Chongqing 401331, China

摘要: 在人群计数领域中，复杂背景干扰一直是一个具有挑战性的问题. 现有研究通过引入注意力机制等方式弱化背景噪声对计数的影响. 但是，随着研究的深入，人群计数网络规模不断扩大，影响了计算效率和实时应用. 为了解决复杂背景问题并提高计数效率，该文提出了一个基于背景辅助的高效人群计数多任务学习网络(BAMTLNet). 与现有网络不同，为了减少网络的参数量，只采用了VGG-16的前7层作为前端网络. 在后端网络中，为了解决复杂背景问题，我们使用了两个高度相关的人群任务：①生成估计密度图主任务，采用3个普通卷积层生成密度图，通过积分获得单张图片的人数. ②复杂背景分割辅助任务，采用3个特定的膨胀卷积层生成图片的背景分割图. 两个任务直接连接在前端网络后，没有相互交叉. 我们还设计了背景辅助多任务损失函数，通过硬参数共享的方式优化前端网络参数，向主任务传递复杂背景的高级语义信息并优化网络. 该端到端人群计数多任务学习网络仅有10层卷积层，参数量小，实现了网络轻量化. 在3个人群计数基准数据集上进行了实验，获得了令人满意的结果.
- 人群计数 /
- 背景分割 /
- 轻量化 /
- 多任务学习
Abstract: Complex background interference is still a challenging issue in crowd counting. In the existing crowd counting methods, attention has been paid on other approaches utilized to reduce the influence of background. As the research continues, the scale of crowd counting networks is growing, which makes a negative influence on computing efficiency and real-time application. Therefore, to solve complex background problem and to improve the counting efficiency, an efficient background assistance based on multi-task learning network (BAMTLNet) has been proposed in this paper. Unlike the existing networks, the first seven layers of VGG-16 has only been used as the front-end network to reduce the number of network parameters. For the problem of complex background, two highly correlated crowd counting tasks have been utilized in the back-end network: 1) The main task of generating estimated density map, which adopts three general convolutional layers to generate a density map, and obtains the number of people in a single image by integration. 2) The auxiliary task of complex background segmentation, by which to use three specific dilated convolutional layers to generate a background segmentation map. The two tasks have directly been connected behind the front-end network with no crossing. Besides, a background-assisted multi-task loss function has been designed to optimize the front-end network parameters through hard parameters sharing, by which to transfer the high-level semantic information of complex background to the main tasks and to optimize the network. This end-to-end crowd counting multi-task learning network is able to achieve comparable performance with only ten convolutional layers and less parameters. extensive experiments have been conducted on three crowd counting benchmark datasets and obtain satisfactory results.
- crowd counting /
- background segmentation /
- lightweight /
- multi-task learning .

图 1 基于背景辅助的高效人群计数多任务学习网络(BAMTLNet)详细结构

下载: 全尺寸图片幻灯片

图 2 BAMTLNet的可视化结果

下载: 全尺寸图片幻灯片

表 1 BAMTLNet在ShanghaiTech Part A上的消融实验结果

方法	MAE	RMSE
VGG-7+主任务	68.4	106.0
VGG-7+主任务+辅助任务	67.1	108.2

下载: 导出CSV

表 2 ShanghaiTech数据集上的对比实验结果

方法	Part A		Part B
方法	MAE	RMSE	MAE	RMSE
MCNN^[8]	110.2	152.4	26.4	41.3
CMTL^[10]	101.3	152.4	20.0	31.1
CP-CNN^[11]	73.6	106.4	20.1	30.1
Switching-CNN^[12]	90.4	135.0	21.6	33.4
DecideNet^[13]	-	-	20.75	29.42
BSAD^[14]	-	-	20.2	35.6
ACSCP^[15]	75.7	102.7	17.2	27.4
PCC Net^[7]	73.5	124.0	11.0	19.0
CSRNet^[5]	68.2	115.0	10.6	16.0
ADCrowdNet^[3]	63.2	98.9	8.2	15.7
BAMTLNet	67.1	108.2	7.8	13.0

下载: 导出CSV

表 3 UCF_CC_50数据集上的对比实验结果

方法	UCF_CC_50
方法	MAE	RMSE
MCNN^[8]	377.6	509.1
CP-CNN^[11]	295.8	320.9
Switching-CNN^[12]	318.1	439.2
ACSCP^[15]	291.0	404.6
DDCN^[16]	286.2	479.6
PCC Net^[7]	240.0	315.5
BAMTLNet	241.7	323.8

下载: 导出CSV

表 4 UCF_QNRF数据集上的对比实验结果

方法	UCF_QNRF
方法	MAE	RMSE
MCNN^[8]	277	426
Switching-CNN^[12]	228	445
CMTL^[10]	252	514
CL^[17]	132	191
BAMTLNet	101.5	167.8

下载: 导出CSV

表 5 网络参数量对比

网络	MCNN^[8]	Switching-CNN^[12]	ACSCP^[15]	CSRNet^[5]	BAMTLNet
参数量/×10⁶	0.13	15.1	5.1	16.2	2.47

下载: 导出CSV

[1]	doi: https://www.sciencedirect.com/science/article/pii/S0167865517302398 SINDAGI V A, PATEL V M. A Survey of Recent Advances in CNN-Based Single Image Crowd Counting and Density Estimation [J]. Pattern Recognition Letters, 2018, 107: 3-16.
[2]	GAO G S, GAO J Y, LIU Q J, et al. CNN-Based Density Estimation and Crowd Counting: A Survey [EB/OL]. (2003-08-06)[2021-12-01]. https://arxiv.org/abs/2003.12783
[3]	LIU N, LONG Y C, ZOU C Q, et al. ADCrowdNet: an Attention-Injective Deformable Convolutional Network for Crowd Understanding [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Computer Society Press, 2019: 3220-3229.
[4]	SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [EB/OL]. (2014-05-06)[2021-12-05]. https://arxiv.org/abs/1409.1556.
[5]	LI Y H, ZHANG X F, CHEN D M. CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes [J]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society Press, 2018: 1091-1100.
[6]	ZHAO M M, ZHANG J, ZHANG C Y, et al. Leveraging Heterogeneous Auxiliary Tasks to Assist Crowd Counting [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Computer Society Press, 2019: 12728-12737.
[7]	doi: https://arxiv.org/abs/1711.04433 GAO J Y, WANG Q, LI X L. PCC Net: Perspective Crowd Counting via Spatial Convolutional Network [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(10): 3486-3498.
[8]	ZHANG Y Y, ZHOU D S, CHEN S Q, et al. Single-Image Crowd Counting via Multi-Column Convolutional Neural Network [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society Press, 2016: 589-597.
[9]	IDREES H, SALEEMI I, SEIBERT C, et al. Multi-Source Multi-Scale Counting in Extremely Dense Crowd Images [C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society Press, 2013: 2547-2554.
[10]	SINDAGI V A, PATEL V M. CNN-Based Cascaded Multi-Task Learning of High-Level Prior and Density Estimation for Crowd Counting [C]//201714th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). New York: IEEE Computer Society Press, 2017.
[11]	SINDAGI V A, PATEL V M. Generating High-Quality Crowd Density Maps Using Contextual Pyramid CNNS [C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Computer Society Press, 2017: 1879-1888.
[12]	SAM D B, SURYA S, BABU R V. Switching Convolutional Neural Network for Crowd Counting [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society Press, 2017: 4031-4039.
[13]	LIU J, GAO C Q, MENG D Y, et al. DecideNet: Counting Varying Density Crowds through Attention Guided Detection and Density Estimation [J]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society Press, 2018: 5197-5206.
[14]	HUANG S Y, LI X, ZHANG Z F, et al. Body Structure Aware Deep Crowd Counting [J]. IEEE Transactions on Image Processing, 2018, 27(3): 1049-1059. doi: 10.1109/TIP.2017.2740160
[15]	SHEN Z, XU Y, NI B B, et al. Crowd Counting via Adversarial Cross-Scale Consistency Pursuit [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Computer Society Press, 2018: 5245-5254.
[16]	WANG L Y, YIN B Q, TANG X, et al. Removing Background Interference for Crowd Counting via De-Background Detail Convolutional Network [J]. Neurocomputing, 2019, 332: 360-371. doi: 10.1016/j.neucom.2018.12.047
[17]	IDREES H, TAYYAB M, ATHREY K, et al. Composition Loss for Counting, Density Map Estimation and Localization in Dense Crowds [EB/OL]. (2018-08-16)[2021-12-05]. http://www.cs.ucf.edu/~haroon/datafiles/Idrees_Counting_ECCV_2018.pdf.

图( 2) 表( 5)

计量

文章访问数: 3842
HTML全文浏览数: 3842
PDF下载数: 617
施引文献: 0

全文HTML

由于城市进程化加快，各类聚集活动猛增. 大型聚会、演唱会、体育盛会、政治活动等都伴随着人群过载、难以管控的问题. 若是调控不当，人群散乱冲撞，极易发生严重的踩踏事故. 人群聚集是一种趋势，在计算机时代，我们可以利用计算机视觉技术对人群进行分析，提前做好应急措施，避免此类事件的发生. 人群分析是计算视觉的一个高热度研究领域，包含人群计数、行人检测、行人追踪等方向. 而人群计数是人群分析中的重要课题，通过对单张图片中的行人进行计数，其模型可以应用到实时监控中，对人群管控起到很大作用.

1. 相关工作

当前人群计数研究^[1-2]大多采用卷积神经网络(CNN)生成单张图像对应的密度图，通过对密度图积分得到具体人数. 生成的密度图质量决定了计数效果的好坏. 但是在人群个体尺度变化、复杂背景干扰、人群之间严重遮挡等问题的影响下，人群计数仍然是一项具有挑战性的研究课题. 其中复杂背景干扰会使得卷积神经网络将形状类似人群头部的树叶、路灯等当作人群进行计数，造成计数误差，使模型效果变差. 为了减少复杂背景的影响，不少学者采用了注意力机制方法，将网络注意力集中到人群区域，弱化背景，提高计数效果. 文献[3]提出采用注意力机制，提高人群区域注意力，降低背景噪声影响. 但是采用注意力机制的网络大都使用了VGG^[4]或者CSRNet^[5]为基准网络，虽然计数结果不错，但网络的参数量过大，推理速度慢. 其他学者还研究了通过多任务学习的方式降低背景影响. 文献[6]将复杂背景作为网络的辅助任务，还采用了尺度变化，生成深度图等共3个辅助任务，但其基准网络参数量大. 文献[7]采用了人群密度分级、背景分割辅助任务增强语义信息，网络结构简单，参数量小，但计数结果一般.

由于多任务学习方法能解决复杂背景干扰问题，且选择恰当的前端网络可以使得网络参数量减少，因此，本文提出了一个基于背景辅助的高效人群计数多任务学习网络(an efficient background assistance based multi-task network for crowd counting，BAMTLNet). 与人群计数网络中大量采用VGG^[4]前10层作为前端网络不同，我们仅采用VGG^[4]网络的前7层，以减少网络的参数量. 在后端网络中，我们提出了2个分支，分别是生成估计密度图主任务分支和复杂背景分割辅助任务分支. 生成估计密度图的主任务分支采用3个卷积层生成估计密度图，用于积分得到人数. 复杂背景分割辅助任务分支采用三层空洞卷积层生成背景分割图，利用多任务学习机制，为主任务分支提供背景的语义信息，优化网络参数，以降低复杂背景对计数的影响. 此外，我们为该多任务学习网络设计了背景辅助融合多任务损失函数. 经训练，该网络能在人群计数基准数据集上达到不错的效果，网络参数少，推理速度快.

本文主要贡献如下：

1) 提出了一个基于背景辅助的高效人群计数多任务学习网络，包含生成估计密度图主任务分支和复杂背景分割辅助任务分支，减少复杂背景对计数的影响，网络参数量小.

2) 针对上述网络提出了背景辅助多任务损失函数.

3) 在人群计数基准数据集上与多种算法进行了对比实验^[8-17]，并得到了不错的实验结果.

3. 实验细节

3.1. 标签生成

在网络训练之前，我们需要制作真实密度图与背景分割图标签. 我们采用了人群计数中常见的真实密度图标签生成方法^[8]，利用几何自适应高斯核与人群头部标注点图生成真实密度图：

其中：x_i是每个行人头部位置点标注，δ(x-x_i)表示一个行人，σ_i表示第i个高斯核的标准差，G_{σ_i}(x)是高斯核函数，dⁱ表示该行人头部与其k个邻居的平均距离，根据MCNN^[8]模型所采用的设定，β为定值取0.3，k取值3.

在真实密度图的基础上，我们对图中的非零像素值取1，否则取值0，可以得到背景分割图标签：

其中p为真实密度图D_i(p)中的第i个像素.

3.2. 数据集

我们在实验中使用了3个人群计数基准数据集，分别为ShanghaiTech^[8]，UCF_CC_50^[9]和UCF_QNRF^[17].

ShanghaiTech数据集^[8]分为Part A和Part B两部分. 每部分都有训练集和验证集. 每张图片有对应的点标签，包含1198张图片，330 165个注释头部. 它是目前使用最为广泛的人群计数基准数据集.

UCF_CC_50数据集^[9]包含50张图像，人群数量变化大，十分具有挑战性. 由于其数据集太小，我们在训练时采用了五折交叉验证的方法.

UCF_QNRF数据集^[17]是一个从网络收集的大规模数据集，包含透视场景和复杂背景的1 535张高分辨率图像，其人数从50到12 000不等.

3.3. 训练细节

本次训练采用Tesla K80显卡. 针对不同的数据集我们设置了不同的高斯核标准差，对于比较稀疏的ShanghaiTech PartB，我们设置了σ为15.0，对其他较为密集的数据集我们设置了σ为4.0. 为了提高网络的泛化性能，我们采用了数据增强的方法. 我们首先对图片进行随机裁剪，之后进行左右翻转、灰度化以及增强图像对比度. 实验中，我们设置了4 000个epoch，batch size的大小为64，学习率为5×10^-6，采用的优化器为Adam.

3.4. 评价指标

在所有实验中，我们采用了常见的平均绝对误差(MAE)和均方根误差(RMSE)对计数精度进行评价. 两个评价指标定义如下：

其中：N表示测试图像的数量，c_i表示第i张图像的真实人数，c_i表示第i张估计密度图的人数.

5. 结论

本文提出了基于背景辅助的高效人群计数多任务学习网络(BAMTLNet). 为了减少网络参数量，我们使用了VGG的前7层作为前端网络提取初级特征. 为了降低复杂背景对计数的影响，后端使用多任务网络硬参数共享机制，采用生成估计密度图的主任务分支与复杂背景分割辅助任务分支共享前端网络参数. 为了更好训练网络，我们提出了背景辅助多任务损失函数. 为了证明复杂背景分割辅助任务分支的作用，我们针对网络分支做了消融实验. 我们在3个人群计数基准数据集上与其他研究进行了对比实验. 实验证明，我们的网络在精度与网络轻量化上都达到了不错的效果.

参考文献 (17)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于背景辅助的高效人群计数多任务学习网络

重庆大学大数据与软件学院，重庆 401331

作者简介:
桑军，教授，博士，主要从事人工智能、计算机视觉、信息安全研究 .

An Efficient Background Assistance Based on Multi-Task Learning Network for Crowd Counting

School of Big Data & Software Engineering, Chongqing University, Chongqing 401331, China

计量

基于背景辅助的高效人群计数多任务学习网络

作者简介: 桑军，教授，博士，主要从事人工智能、计算机视觉、信息安全研究
重庆大学大数据与软件学院，重庆 401331

English Abstract

An Efficient Background Assistance Based on Multi-Task Learning Network for Crowd Counting

全文HTML

2.1. 网络结构

2.2. 损失函数

3.1. 标签生成

3.2. 数据集

3.3. 训练细节

3.4. 评价指标

4.1. 消融实验

4.2. 对比实验

4.3. 可视化结果

目录

留言板

基于背景辅助的高效人群计数多任务学习网络

重庆大学 大数据与软件学院，重庆 401331

作者简介: 桑军，教授，博士，主要从事人工智能、计算机视觉、信息安全研究 .

An Efficient Background Assistance Based on Multi-Task Learning Network for Crowd Counting

School of Big Data & Software Engineering, Chongqing University, Chongqing 401331, China

计量

出版历程

基于背景辅助的高效人群计数多任务学习网络

作者简介: 桑军，教授，博士，主要从事人工智能、计算机视觉、信息安全研究 重庆大学 大数据与软件学院，重庆 401331

English Abstract

An Efficient Background Assistance Based on Multi-Task Learning Network for Crowd Counting

全文HTML

2.1. 网络结构

2.2. 损失函数

3.1. 标签生成

3.2. 数据集

3.3. 训练细节

3.4. 评价指标

4.1. 消融实验

4.2. 对比实验

4.3. 可视化结果

目录

重庆大学大数据与软件学院，重庆 401331

作者简介:
桑军，教授，博士，主要从事人工智能、计算机视觉、信息安全研究 .

作者简介: 桑军，教授，博士，主要从事人工智能、计算机视觉、信息安全研究
重庆大学大数据与软件学院，重庆 401331