基于改进VGG-16网络的交通声音事件分类方法研究

徐科; 姚凌云; 姚静怡; 姚敦辉

doi:10.13718/j.cnki.xdzk.2023.12.015

基于改进VGG-16网络的交通声音事件分类方法研究

西南大学工程技术学院/丘陵山区农业装备重庆市重点实验室，重庆 400715

基金项目: 国家自然科学基金项目(52175121)

详细信息

作者简介:
徐科，硕士研究生，主要从事声音事件检测、深度学习、汽车听觉研究 .

通讯作者: 姚凌云，博士，教授，博士研究生导师;

中图分类号: U495

Research on Traffic Sound Event Classification Method Based on Improved VGG-16 Network

College of Engineering and Technology, Southwest University/Chongqing Key Laboratory of Agriculture Equipment in Hilly Areas, Chongqing 400715, China

摘要:
交通声音事件分类是提升城市智慧交通系统环境感知能力的关键技术之一. 针对传统交通系统的环境声音感知能力弱、效率低、鲁棒性低、可分类数量少等问题，研究了一种基于VGG卷积神经网络的交通声音事件分类方法，该方法使用语谱图(spectrogram image features，SIF)作为交通声学特征，建立并优化了卷积神经网络(convolutional neural networks，CNN)，从而实现交通声音的智能分类. 首先，使用实验室采集的10种交通声音，构建了交通声音数据集. 其次，利用语谱图方法对交通声音进行声学特征提取，搭建VGG-16分类算法主模型，通过双卷积层融合算法和块间直连通道对网络进行改进，得到了VGG-TSEC网络. 该优化网络的交通声音事件分类准确率可达97.18%，与优化前相比准确率提升4.68%，其权重参数降低72.76%，占用空间降低384MB. 同时，将该优化模型与K邻近(KNN)、支持向量机(SVM)等机器学习方法进行对比，其准确率分别提高了19.68%和4.41%. 结果表明，VGG-TSEC交通声音分类方法可以实现警笛音、事故碰撞、行人尖叫、卡车等交通声音的高效分类，为交通声音事件分类提供参考.
- 交通声音事件分类 /
- 卷积神经网络 /
- 交通声音 /
- 语谱图特征 /
- 深度学习
Abstract:
Traffic sound event classification is the most important step to improve the environmental perception ability of transportation system. Aiming at the problems of traditional traffic system, such as weak sound perception, inefficiency, low robustness and few detectable types, a traffic sound event classification method based on VGG was studied. This method used Spectrogram image features (SIF) as traffic sound features established the Convolutional neural networks (CNN) to complete intelligent classification of traffic sounds. Firstly, a traffic sound dataset was constructed using 10 sounds collected in the laboratory. Then, the SIF method was used to extract the acoustic features of traffic sounds, and the main model of VGG-16 classification algorithm was built. Finally, the VGG-TSEC network is improved by fusion algorithm with two convolution layer and inter-block channel algorithm. The final experiment shows that traffic sound event classification accuracy of the optimized network can reach 97.18%, which is 4.68% higher than that of before optimization. The weight parameter is reduced by 72.76% and the resource consumption is reduced by 384MB. At the same time, the optimization model is compared with machine learning such as K-nearest neighbor (KNN) and support vector machine (SVM), and the final accuracy was improved by 19.68% and 4.41%, respectively. The results show that the VGG-TSEC traffic sound classification method can achieve efficient classification of traffic sounds such as siren sounds, accident collisions, pedestrian screams, and trucks sounds, etc., which can provide a reference for the traffic sound event classification.
- traffic sound event classification /
- convolutional neural network /
- traffic sound /
- spectrogram image feature /
- deep learning .

图 1 语谱图特征提取示意图

下载: 全尺寸图片幻灯片

图 2 4类交通声音语谱图(警车、消防车、救护车、车辆事故碰撞声)

下载: 全尺寸图片幻灯片

图 3 VGG-16网络结构

下载: 全尺寸图片幻灯片

图 4 VGG-TSEC网络结构

下载: 全尺寸图片幻灯片

图 5 卷积块结构示意

下载: 全尺寸图片幻灯片

图 6 交通声音采集示意图

下载: 全尺寸图片幻灯片

图 7 原始声音(a)，Bitter hall way(b)，Corner verbation(c)

下载: 全尺寸图片幻灯片

图 8 实验中的交通声音

下载: 全尺寸图片幻灯片

图 9 救护车警笛音语谱图(a)，卷积层后的热力图(b)，(c)

下载: 全尺寸图片幻灯片

图 10 VGG-TESC训练集和验证集性能表征

下载: 全尺寸图片幻灯片

图 11 VGG-TESC混淆矩阵

下载: 全尺寸图片幻灯片

表 1 VGG-16全连接层改进前后结构表

指标网络层	改进前VGG-16				优化后VGG-16
指标网络层	FC1-4096	FC2-4096	FC3-1000	Softmax-1000	C14-64	C15-32	GAP	Softmax-10
参数量	102 764 544	16 781 312	4 097 000	0	16 448	2 080	0	330

下载: 导出CSV

表 2 警笛音频率和周期

音调名称	音响频率/Hz	周期/s	车型
紧急调频调	600_-50⁰~1 500₀⁺⁵⁰	0.333~0.385	警车
连续调频调	600_-50⁰~1 500₀⁺⁵⁰	3.00~5.00	消防车
双音转换调	f₁：800±50，f₂：1 000±50	1.67~2.50	救护车

下载: 导出CSV

表 3 声音通道增益和衰减

类型	Ch1(声音事件)	Ch2(交通背景音)	类型	Ch1(声音事件)	Ch2(交通背景音)
a	+0dB	+0dB	c	-20dB	+10dB
b	-15dB	+10dB	d	-25dB	+10dB

下载: 导出CSV

表 4 各类交通声音的标签信息

标签	声音类型	数量	标签	声音类型	数量
0	救护车	2 980	5	警车	3 050
1	公共汽车	4 680	6	倒车提示音	4 120
2	城市警报声	5 020	7	尖叫声	4 670
3	消防车	2 920	8	卡车	5 810
4	摩托车	4 560	9	车辆碰撞声	3 110

下载: 导出CSV

表 5 交通声音验证集结果

声音事件	准确率/%	召回率/%	F₁分数/%	数量/次
救护车	99.66	1.00	99.83	297
公共汽车	90.81	98.37	94.44	432
城市警报声	97.21	96.82	97.01	504
消防车	1.00	98.98	99.48	295
摩托车	97.58	95.08	96.32	468
警车	99.67	1.00	99.83	304
倒车提示音	98.78	95.31	97.02	427
行人尖叫声	98.07	95.81	96.93	478
卡车	95.00	96.67	95.83	571
车辆碰撞	99.35	97.78	98.56	316

下载: 导出CSV

表 6 各网络声音分类的综合性能

网络	训练速度ms/step	训练用时/min	占用空间/MB	准确率/%
LeNet-5	7	16.72	0.46	87.90
AlexNet	158	47.27	155.94	77.56
VGG-16	24	92.82	527.79	92.54
ResNet-34	213	327.38	57.21	93.05
VGG-TSEC	22	64.85	7.52	97.18

下载: 导出CSV

表 7 各机器学习方法的交通声音事件分类性能

声音特征和分类器	准确率/%
径向基神经网络+A-计权+MFCC+SVM^[12]	89.33
PCA+MFCC+SVM^[20]	70.82
LPC+MFCC+SVM^[21]	86.25
A-Weighting-Mel filters+MFCC+SVM^[21]	88.25
多尺度RBF+MFCC+SVM^[21]	92.77
HMFCC+SVM^[22]	72.00
径向基神经网络+HMFCC+SVM^[22]	90.80
KNN^[17]	77.50
随机森林^[23]	82.70
SVM+MFCC^[24]	66.67
改进小波包变换+EMD-MFCC+SVM^[24]	87.08
VGG-TSEC+STFT-Spectrogram	97.18

下载: 导出CSV

[1]	姚洁, 邱劲. 基于SSA-BP算法的道路交通流量预测研究[J]. 西南大学学报(自然科学版), 2022, 44(10): 193-201. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xdzk.2022.10.020
[2]	LI L Z, OTA K, DONG M X. Humanlike Driving: Empirical Decision-Making System for Autonomous Vehicles[J]. IEEE Transactions on Vehicular Technology, 2018, 67(8): 6814-6823. doi: 10.1109/TVT.2018.2822762
[3]	MISHRA S K, DAS S. A Review on Vision Based Control of Autonomous Vehicles Using Artificial Intelligence Techniques[C]//2019 International Conference on Information Technology (ICIT). December 19-21, 2019, Bhubaneswar, India. IEEE, 2020: 500-504.
[4]	KUUTTI S, BOWDEN R, JIN Y C, et al. A Survey of Deep Learning Applications to Autonomous Vehicle Control[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(2): 712-733. doi: 10.1109/TITS.2019.2962338
[5]	GLOAGUEN J R, CAN A, LAGRANGE M, et al. Road Traffic Sound Level Estimation from Realistic Urban Sound Mixtures by Non-Negative Matrix Factorization[J]. Applied Acoustics, 2019, 143: 229-238. doi: 10.1016/j.apacoust.2018.08.018
[6]	XIA X J, TOGNERI R, SOHEL F, et al. Auxiliary Classifier Generative Adversarial Network with Soft Labels in Imbalanced Acoustic Event Detection[J]. IEEE Transactions on Multimedia, 2019, 21(6): 1359-1371. doi: 10.1109/TMM.2018.2879750
[7]	VESPERINI F, GABRIELLI L, PRINCIPI E, et al. Polyphonic Sound Event Detection by Using Capsule Neural Networks[J]. IEEE Journal of Selected Topics in Signal Processing, 2019, 13(2): 310-322. doi: 10.1109/JSTSP.2019.2902305
[8]	KARPIS O. System for Vehicles Classification and Emergency Vehicles Detection[J]. IFAC Proceedings Volumes, 2012, 45(7): 186-190. doi: 10.3182/20120523-3-CZ-3015.00037
[9]	CHOI W, RHO J, HAN D K, et al. Selective Background Adaptation Based Abnormal Acoustic Event Recognition for Audio Surveillance[C]//2012 IEEE Ninth International Conference on Advanced Video and Signal-Based Surveillance. September 18-21, 2012, Beijing, China. IEEE, 2012: 118-123.
[10]	LI Q, LIU X M, YANG X Y, et al. Abnormal Event Detection Method in Multimedia Sensor Networks[J]. International Journal of Distributed Sensor Networks, 2015, 11(11): 154658. doi: 10.1155/2015/154658
[11]	LEFEBVRE N, CHEN X D, BEAUSEROY P, et al. Traffic Flow Estimation Using Acoustic Signal[J]. Engineering Applications of Artificial Intelligence, 2017, 64: 164-171. doi: 10.1016/j.engappai.2017.05.019
[12]	朱强华, 郑铁然, 韩纪庆. 行车环境下基于二值语谱图的声学事件检测[C]//第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集. 贵阳, 2013: 377-381.
[13]	ZHANG X D, CHEN Y S, TANG G C. Research on Traffic Acoustic Event Detection Algorithm Based on Sparse Autoencoder[J]. MATEC Web of Conferences, 2020, 308: 05002. doi: 10.1051/matecconf/202030805002
[14]	YAN C X, LUO M N, LIU H, et al. Top-k Multi-Class SVM Using Multiple Features[J]. Information Sciences, 2018, 432: 479-494. doi: 10.1016/j.ins.2017.08.004
[15]	JIN S P, WANG X F, DU L L, et al. Evaluation and Modeling of Automotive Transmission Whine Noise Quality Based on MFCC and CNN[J]. Applied Acoustics, 2021, 172: 107562. doi: 10.1016/j.apacoust.2020.107562
[16]	黎煊, 赵建, 高云, 等. 基于连续语音识别技术的猪连续咳嗽声识别[J]. 农业工程学报, 2019, 35(6): 174-180. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-NYGU201906021.htm
[17]	WANG X B, YING T, TIAN W. Spectrum Representation Based on STFT[C]//2020 13th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). October 17-19, 2020, Chengdu, China. IEEE, 2020: 435-438.
[18]	COX R W, TONG R Q. Two- and Three-Dimensional Image Rotation Using the FFT[J]. IEEE Transactions on Image Processing, 1999, 8(9): 1297-1299. doi: 10.1109/83.784442
[19]	刘坤华, 钟佩思, 徐东方, 等. 基于双曲正切函数的修正线性单元[J]. 计算机集成制造系统, 2020, 26(1): 145-151. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSJJ202001015.htm
[20]	孔鸿运. 行车环境下鲁棒的声学事件检测方法[D]. 哈尔滨: 哈尔滨工业大学, 2013.
[21]	裴孝中, 郑铁然, 韩纪庆. 行车噪声环境下基于人耳频率选择特性的声学特征提取方法[J]. 智能计算机与应用, 2015, 5(3): 16-18. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-DLXZ201503005.htm
[22]	毛锦, 李林聪, 刘凯, 等. 无人驾驶汽车行车环境下鲁棒性声学特征提取算法[J]. 中国公路学报, 2019, 32(6): 169-175. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-ZGGL201906018.htm
[23]	PAL M. Random Forest Classifier for Remote Sensing Classification[J]. International Journal of Remote Sensing, 2005, 26(1): 217-222.
[24]	ZHANG M L, ZHOU Z H. ML-KNN: A Lazy Learning Approach to Multi-Label Learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048.

图( 11) 表( 7)

计量

文章访问数: 2052
HTML全文浏览数: 2052
PDF下载数: 549
施引文献: 0

全文HTML

开放科学(资源服务)标识码(OSID):
近年来，随着机器学习理论的发展，大量人工智能(artificial intelligence，AI)项目应运而生，促使交通环境感知系统朝着多传感器融合的智能化方向发展^[1-4]. 目前，交通环境信息的感知主要依靠激光雷达、毫米波雷达和视觉传感器等机器视觉技术，几乎没有听觉技术的应用. 然而，听觉能力对城市智慧交通系统十分关键，交通环境中的声音事件(如喇叭声、警笛声、车辆碰撞声、轮胎制动声等)携带着大量声音信息. 研究交通声音事件分类方法，对于完善道路安全和不同背景下的声音检测方法有重要的实际意义^[5]和应用价值.

交通环境中的声音事件(sound event)是指一段独立完整且能引起人们感知注意的短时连续声音信号^[6-7]. 声音事件检测(sound event detection，SED) 是交通环境感知的核心技术之一，主要包括声音事件分类(sound event classification，SEC)和声音事件定位(sound event location，SEL). 传统的声音事件分类主要借鉴语音识别和模式匹配，将语音识别技术迁移应用到声音事件分类领域. 例如使用基于矢量量化的识别技术、动态时间规整(dynamic time warping，DTW)技术、隐马尔可夫模型(hidden Markov models，HMM)、高斯混合模型(gaussian mixture model，GMM)、支持向量机(support vector machine，SVM)等技术.

目前，交通声音事件分类相关研究以模式识别理论方法为主，即特征提取，模式匹配. Karpis^[8]研究了基于声学信号检测特种车辆(例如警车消防车)的方法，实现了警车、消防车的初步检测. Choi等^[9]针对音频监控问题，采用GMM分类器在不同背景噪声环境下对9种异常声音(尖叫声、汽笛声、撞击声等)进行识别，并自动更新模型参数达到对环境的自适应，识别效率有所提高. Li等^[10]以HMM识别模型为基础，采用环境中的大量声学事件训练HMM模型，并通过将未知声学事件的MFCC特征与背景池对比，提取目标声学事件的声音，该算法在不牺牲识别性能的情况下简化了模型的复杂度. Lefebvre等^[11]在2017年使用声学信号并采用支持向量回归方法实现了交通流量测量. 朱强华等^[12]以MFCC特征和SVM作为声音特征和分类器对交通声音分类(警车、消防车、救护车、汽笛声等)进行了研究，通过优化MFCC和SVM算法，完成无人车交通声音分类任务，但其所建模型在信噪比减小的情况下，分类准确率大大降低. 2020年，Zhang等^[13]提出了一种基于稀疏自动编码器的车辆声音事件分类方法分析交通状况，其检测准确率达到94.9%.

上述研究主要采用梅尔频率倒谱系数(mel-frequency cepstrum coefficient，MFCC)等声学特征和传统机器学习方法(machine learning，ML)作为声音事件的模型分类器. 然而传统机器学习仅适用于小样本，在处理大样本、高维度的数据时准确率会大幅降低^[14]. 此外，实际交通环境噪音较大，MFCC声音特征提取对噪声十分敏感，较大程度上影响了机器学习的性能^[15]. 而近几年由于人工智能快速发展，基于深度学习的算法在声音识别方面表现出巨大优势，具有学习能力强、覆盖范围广等优点，通过神经网络对声音事件进行特征提取和学习，可以获得更好的分类效果^[16].

鉴于此，本文以SIF特征提取法作为交通声音的声学特征，将卷积神经网络引入交通声音事件分类研究，在VGG卷积神经网络中搭建了双卷积层融合算法以及块间直连通道，提出一种基于改进VGG-16卷积神经网络的交通声音事件分类算法. 该算法对麦克风系统采集到的交通声音进行预处理，将快速傅里叶变换得到的时频域谱图作为声音的特征，神经网络则负责交通声音的深层特征进行学习，完成交通环境的声音事件分类任务. 实验结果表明，本文提出的VGG-TSEC块间直连算法在交通声音测试集上的准确率为97.18%，分类性能优于随机森林、K邻近(KNN)和支持向量机(SVM)等传统机器学习算法.

4. 结论

交通声音事件分类旨在识别环境中的声音事件类别，为交通系统提供更多的声音信息. 结论如下：本文针对现有交通系统环境声音感知能力不足、效率低、鲁棒性低、可分类数量少等问题，基于VGG-16改进并提出了VGG-TSEC交通声音事件分类方法，提高了复杂交通环境下的声音事件分类的准确率，丰富了不同环境背景下的声音事件分类方法.

1) 本文所提出VGG-TSEC交通声音事件分类方法的平均准确率达到97.18%，与AlexNet，VGG-16，ResNet34等网络相比，模型性能显著提高.

2) 实验表明，双卷积层融合算法优化后的模型参数量降低了72.75%，使得网络时空效率均得到了明显提升，为后续移动端的部署奠定基础.

3) 创新性地引入块间直连通道算法，避免深层网络中图形特征堆叠，抑制梯度消失，加快网络收敛速度.

参考文献 (24)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于改进VGG-16网络的交通声音事件分类方法研究

西南大学工程技术学院/丘陵山区农业装备重庆市重点实验室，重庆 400715

作者简介:
徐科，硕士研究生，主要从事声音事件检测、深度学习、汽车听觉研究 .

通讯作者: 姚凌云，博士，教授，博士研究生导师;

Research on Traffic Sound Event Classification Method Based on Improved VGG-16 Network

College of Engineering and Technology, Southwest University/Chongqing Key Laboratory of Agriculture Equipment in Hilly Areas, Chongqing 400715, China

计量

基于改进VGG-16网络的交通声音事件分类方法研究

通讯作者: 姚凌云，博士，教授，博士研究生导师;

作者简介: 徐科，硕士研究生，主要从事声音事件检测、深度学习、汽车听觉研究
西南大学工程技术学院/丘陵山区农业装备重庆市重点实验室，重庆 400715

English Abstract

Research on Traffic Sound Event Classification Method Based on Improved VGG-16 Network

Corresponding author: YAO Lingyun ;

全文HTML

2.1. VGG网络结构

2.2. VGG卷积神经网络参数优化

2.3. 块间直连通道

3.1. 建立实验数据集

3.1.1. 采集交通声音

3.1.2. 数据集扩增

3.2. 实验环境配置和模型评估指标

3.3. 分类结果及分析

3.4. 与其他模型性能的对比

目录

留言板

基于改进VGG-16网络的交通声音事件分类方法研究

西南大学 工程技术学院/丘陵山区农业装备重庆市重点实验室，重庆 400715

作者简介: 徐科，硕士研究生，主要从事声音事件检测、深度学习、汽车听觉研究 .

通讯作者: 姚凌云，博士，教授，博士研究生导师;

Research on Traffic Sound Event Classification Method Based on Improved VGG-16 Network

College of Engineering and Technology, Southwest University/Chongqing Key Laboratory of Agriculture Equipment in Hilly Areas, Chongqing 400715, China

计量

出版历程

基于改进VGG-16网络的交通声音事件分类方法研究

通讯作者: 姚凌云，博士，教授，博士研究生导师;

作者简介: 徐科，硕士研究生，主要从事声音事件检测、深度学习、汽车听觉研究 西南大学 工程技术学院/丘陵山区农业装备重庆市重点实验室，重庆 400715

English Abstract

Research on Traffic Sound Event Classification Method Based on Improved VGG-16 Network

Corresponding author: YAO Lingyun ;

全文HTML

2.1. VGG网络结构

2.2. VGG卷积神经网络参数优化

2.3. 块间直连通道

3.1. 建立实验数据集

3.1.1. 采集交通声音

3.1.2. 数据集扩增

3.2. 实验环境配置和模型评估指标

3.3. 分类结果及分析

3.4. 与其他模型性能的对比

目录

西南大学工程技术学院/丘陵山区农业装备重庆市重点实验室，重庆 400715

作者简介:
徐科，硕士研究生，主要从事声音事件检测、深度学习、汽车听觉研究 .

作者简介: 徐科，硕士研究生，主要从事声音事件检测、深度学习、汽车听觉研究
西南大学工程技术学院/丘陵山区农业装备重庆市重点实验室，重庆 400715