基于CNN的普米语孤立词语谱图分类

董华珍

doi:10.13718/j.cnki.xdzk.2021.02.021

基于CNN的普米语孤立词语谱图分类

董华珍

黔西南州广播电视大学人事科, 贵州兴义 562400

基金项目: 国家自然科学基金项目(61761048; 61363022)

详细信息

作者简介:
董华珍, 硕士, 主要从事智能计算方面的研究 .

中图分类号: TN912.34

Primi Isolated Word Spectrogram Classification Based on Convolutional Neural Network

DONG Hua-zhen

Personnel Section, Southwest Guizhou Autonomous Prefecture Radio & Television University, Xingyi, Guizhou 562400, China

摘要: 为实现普米语孤立词语谱图的分类, 引入基于卷积神经网络的语谱图模型, 该模型可以无监督学习语谱图特征实现分类.本文搭建了一个9层的卷积神经网络模型, 利用彩色语谱图样本集进行训练, 并针对已训练好的模型, 通过实验检验各项因素对分类的影响, 从而得到适当的参数.参数确定后, 进行卷积神经网络与支持向量机、BP神经网络的对比实验, 验证算法的可行性和有效性.实验显示基于卷积神经网络的普米语孤立词语谱图分类准确率达到91 % ~95 %, 这说明该算法是可行和有效的.与支持向量机、BP神经网络相比, 卷积神经网络具有自动提取特征, 避免过拟合问题, 适合大样本数据进行训练的优点.
- 普米语孤立词 /
- 语谱图 /
- 分类 /
- 卷积神经网络
Abstract: A spectrogram model based on convolutional neural networks is introduced to achieve the classification of Primi isolated words. This model can achieve classification through unsupervised learning of spectrogram features. A nine-layer convolutional neural network modelis built, which is trained using the spectrogram sample set. For the trained model, the influence of various factors on the experimental results is tested by experiments, and thus the appropriate parameters are obtained. After the parameters are determined, a comparative experiment of convolutional neural network, support vector machine and BP neural network is performed, and the results show that the accuracy of Primi isolated word spectrogram classification based on convolutional neural networkis as high as 91%~95%, thus indicating its effectiveness and feasibility. Compared with SVM and BP neural network, this convolutional neural network has the advantages of automatically extracting features, avoiding over-fitting, and adapting to large sample data for training.
- Primi isolated word /
- spectrogram /
- classification /
- Convolutional Neural Network (CNN) .

图 1 部分训练样本图

下载: 全尺寸图片幻灯片

图 2 CNN模型训练过程中准确率的变化情况示例图

下载: 全尺寸图片幻灯片

图 3 中间节点上保存的模型名称示意图

下载: 全尺寸图片幻灯片

图 4 语音信号转换为语谱图的示例图

下载: 全尺寸图片幻灯片

图 5 彩色语谱图Accuracy曲线图

下载: 全尺寸图片幻灯片

图 6 彩色语谱图Cross-entropy曲线图

下载: 全尺寸图片幻灯片

表 1 CNN网络结构参数表

网络层类别	输入层大小	滤波器	滤波器	步长	输出层大小
卷积层1	200×150×3	64	1×1	1	200×150×64
池化层1	200×150×64	-	2×2	2	100×75×64
卷积层2	100×75×64	64	1×1	1	100×75×64
池化层2	100×75×64	-	2×2	2	50×38×64
卷积层3	50×38×64	128	1×1	1	50×38×128
池化层3	50×38×128	-	2×2	2	25×19×128
卷积层4	25×19×128	128	1×1	1	25×19×128
池化层4	25×19×128	-	2×2	2	13×10×128
卷积层5	13×10×128	256	1×1	1	13×10×256
池化层5	13×10×256	-	2×2	2	7×5×256
卷积层6	7×5×256	256	1×1	1	7×5×256
池化层6	7×5×256	-	2×2	2	4×3×256
卷积层7	4×3×256	256	1×1	1	4×3×256
池化层7	4×3×256	-	2×2	2	2×2×256
全连接层1	2×2×256	-	-	-	4 096
全连接层2	4 096	-	-	-	1 650

下载: 导出CSV

表 2 不同学习率对比实验

学习率	迭代次数
学习率	20	60	100	140	180	220	260
0.0005	71.56%	81.32%	85.76%	88.91%	91.09%	93.89%	95.01%
0.001	69.78%	69.78%	69.78%	69.78%	69.78%	69.78%	69.09%
0.005	69.78%	66.56%	69.09%	69.09%	71.73%	73.92%	73.92%
0.05	68.89%	64.87%	69.07%	70.98%	73.09%	74.56%	74.56%
0.01	68.84%	65.95%	70.98%	73.45%	74.56%	74.56%	74.56%
0.1	35.68%	35.08%	32.33%	35.86%	35.86%	35.86%	35.86%

下载: 导出CSV

表 3 4种样本比例对照表

实验名称	样本数	训练集:测试集
实验1	3 300	1:1
实验2	6 600	3:1
实验3	11 550	6:1
实验4	13 200	7:1

下载: 导出CSV

表 4 每一类不同样本比例对照表

实验名称	训练集:测试集
实验1	3:5
实验2	4:4
实验3	6:2
实验4	7:1

下载: 导出CSV

表 5 4种样本比例的对比实验结果

训练集：测试集	迭代次数
训练集：测试集	20	60	100	140	180	220	260
1:1	51.20%	55.60%	55.90%	45.80%	53.20%	53.20%	53.20%
3:1	57.56%	63.98%	67.98%	70.56%	69.45%	71%	71%
5:1	62.33%	63.32%	67.90%	73.35%	77.79%	83.09%	83.09%
7:1	63.39%	75.46%	89.94%	94.37%	95.31%	95.31%	95.31%

下载: 导出CSV

表 6 每一类不同样本比例的对比实验结果

训练集：测试集	迭代次数
训练集：测试集	20	60	100	140	180	220	260
3:5	23.12%	22.56%	26.89%	35.58%	37%	37%	37%
4:4	22.51%	35.78%	46.36%	33.56%	44.49%	44.49%	44.49%
6:2	61.76%	63.32%	74.90%	78.98%	78.98%	78.98%	78.98%
7:1	63.31%	75.23%	89.93%	94.38%	95.31%	95.31%	95.31%

下载: 导出CSV

表 7 全连接层不同输出节点的对比实验

输出节点数	分类准确率/%
1 024	75~94
2 048	80~94
4 096	90~94

下载: 导出CSV

表 8 4种激活函数对比实验

激活函数	训练时间/h	准确率/%
Softmax	28	78
Softplus	35	67
ReLU	18	95
Sigmoid	26	90

下载: 导出CSV

表 9 CNN模型最终参数设置

参数类型	模型参数设置
网络结构	搭建7个卷积层、2个全连接层的卷积神经网络
学习率	0.000 5
激活函数	ReLU函数
输出节点数	4 096

下载: 导出CSV

表 10 SVM、BP神经网络和CNN的性能比较

算法	准确率/%
SVM	63
BP神经网络	58
卷积神经网络(CNN)	91

下载: 导出CSV

[1]	胡文君, 傅美君, 潘文林.基于Kaldi的普米语语音识别[J].计算机工程, 2018, 44(1): 199-205. doi: 10.3969/j.issn.1000-3428.2018.01.034
[2]	余建潮, 张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计, 2009, 30(5): 1189-1191. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-SJSJ200905050.htm
[3]	李原.小词汇量连续语音识别系统的研究[D].重庆: 西南大学, 2017.
[4]	游大涛.基于听觉机理的鲁棒特征提取及在说话人识别中的应用[D].哈尔滨: 哈尔滨工业大学, 2013.
[5]	宋洋.基于图像处理的维吾尔语音素语音学特征提取与应用[D].新疆: 新疆大学, 2016.
[6]	唐闺臣, 冯月芹, 梁瑞宇, 等.面向语音情感识别的语谱特征提取算法研究[J].计算机工程与应用, 2016, 52(21): 152-156, 174. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG201621026.htm
[7]	梁士利, 魏莹, 潘迪, 等.基于语谱图行投影的特定人二字汉语词汇识别[J].吉林大学学报(工学版), 2017, 47(1): 294-300. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JLGY201701043.htm
[8]	尹恒, 付佳, 何凌, 等.基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法: CN201810852508.2 [P]. 2019-2-1.
[9]	CHEN S B, XU Y L, DING C H. Q, et al. A Nonnegative Locally Linear KNN Model for Image Recognition [J]. Pattern Recognition, 2018, 83: 78-90. doi: 10.1016/j.patcog.2018.05.024
[10]	章鸣嬛, 陈瑛, 沈瑛, 等.人工神经网络和支持向量机性能比较及其在DMD疾病识别中的应用[J].上海理工大学学报, 2016, 38(4): 346-351. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-HDGY201604007.htm
[11]	王霞, 董永权, 于巧, 等.结构化支持向量机研究综述[J].计算机工程与应用, 2020, 56(17): 24-32. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSGG202017004.htm
[12]	doi: http://dl.acm.org/doi/10.5555/2999134.2999257 KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks [J]. Proceedings of the 25th International Conference on Neural Information Processing Systems, 2012, 1: 1097-1105.
[13]	李彦冬, 郝宗波, 雷航.卷积神经网络研究综述[J].计算机应用, 2016, 36(9): 2508-2515, 2565. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201609029.htm
[14]	doi: http://dl.acm.org/citation.cfm?id=2405841.2405959 FUKUSHIMA K. Artificial Vision by Multi-layered Neural Networks: Neocognitron and Its Advances [J]. Neural Networks, 2013, 37: 103-119.

图( 6) 表( 10)

计量

文章访问数: 1469
HTML全文浏览数: 1469
PDF下载数: 106
施引文献: 0

全文HTML

近年来国内语音识别技术快速发展，并取得显著成效.国内语音识别领域处于领先地位的科大讯飞、百度语音实验室等对汉语语音识别率可以达到95%以上，但对濒危少数民族语言，如普米语、佤语等语言的语音识别技术研究仍处于空白状态.普米族主要居住于云南省和四川省，普米语为其民族语言，由于没有文字，语言和文化仅限于口口相传^[1].随着年长的人相继离世，普米族的语言和文化正逐渐消亡.为了促进普米族语言和文化的传承和发展，语音识别技术介入迫在眉睫.

尽管目前语音识别的方法很多，但总的来说可以归结为基于语音信号和基于语谱图的2种语音识别方法.语音识别中，同一个词不同说话者的语速不同，同一个人发同一个音，在不同时刻，所用的时间也不相同^[2-3].因此，通过语音信号来统计人类语音的发音特征非常困难.基于语音信号的语音识别中提取的特征参数主要有梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，LPCC)等，其中MFCC、LPCC是最有效的^[4]，但这2个特征参数的提取是比较困难的.而基于语谱图的方法能够包含发音特点，并将语音信号的所有特征以图像的形式显示出来.通过傅里叶变换将语音信号转换为语谱图，借助图像处理的方法提取语谱图特征，最后利用分类器，可以实现基于语谱图的语音识别，从而大大减小了语音识别的难度.近年来国内对基于语谱图的语音识别展开了研究.如：宋洋^[5]提取语谱图的边界特征和二值特征作为语谱特征，通过构造BP神经网络实现维吾尔语音素分类.唐闺臣等^[6]通过提取语谱图中的Hu不变矩特征、纹理特征和部分语谱特征，基于SVM实现了对语音情感的分类.梁士利等^[7]将语谱图的频域图矩阵进行投影后的值作为特征值，并利用SVM实现二字汉语词汇语音识别.

基于语谱图的语音识别，其本质是实现语谱图的分类.普米语孤立词语谱图分类属于模式识别的范畴^[8]，模式识别算法的选择是普米语孤立词语谱图分类的难点也是核心问题.目前常用的模式识别算法有神经网络算法(Neural Network Algorithm，NNA)、K-近邻分类器(K-Nearest Neighbor Classifier，KNNC)^[9]、支持向量机(Support Vector Machine，SVM)、卷积神经网络(Convolutional Neural Network，CNN)等.神经网络算法、K-近邻分类器进行模型训练时需要大量训练样本.此外，神经网络算法^[10]基于经验风险最小化原则，面临“过学习的风险”的问题. SVM针对多分类和大样本数据时，单一核在学习过程中存在学习能力强泛化能力弱或泛化能力强学习能力弱等局限性，需要引入多核支持向量机^[11].卷积神经网络^[12-14]是深度学习的一个重要算法，其提供了一种端到端的学习模型，通过梯度下降算法可对模型的参数进行训练，并自动地学习图像的特征完成图像的分类.

3. 结论

本文在机器学习框架系统Tensorflow上搭建了一个包含7个卷积层和2个全连接层的卷积神经网络模型，并完成了普米语孤立词语谱图的分类实验.通过不同样本比例、不同学习率、不同激活函数、不同输出节点数等的对比实验，分析各项因素对分类准确率的影响，得到模型适当的参数.在此基础上，分别对卷积神经网络、SVM和BP神经网络的实验结果进行比较，判断卷积神经网络模型的性能.

实验表明，在基于卷积神经网络的普米语语谱图分类实验中，分类准确率受学习率、激活函数、同一类训练样本与测试样本比例等因素的影响，但通过模型的训练，可找到适当的参数，对模型参数进行调整.相比于SVM和BP神经网络，卷积神经网络的性能较好，对普米语孤立词语谱图的分类是有效的.通过实验分析各项因素对分类准确率的影响，从而得到了适当的参数并在训练好的模型上进行普米语孤立词语谱图的分类实验.

参考文献 (14)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于CNN的普米语孤立词语谱图分类

黔西南州广播电视大学人事科, 贵州兴义 562400

作者简介:
董华珍, 硕士, 主要从事智能计算方面的研究 .

Primi Isolated Word Spectrogram Classification Based on Convolutional Neural Network

Personnel Section, Southwest Guizhou Autonomous Prefecture Radio & Television University, Xingyi, Guizhou 562400, China

计量

基于CNN的普米语孤立词语谱图分类

作者简介: 董华珍, 硕士, 主要从事智能计算方面的研究
黔西南州广播电视大学人事科, 贵州兴义 562400

English Abstract

Primi Isolated Word Spectrogram Classification Based on Convolutional Neural Network

全文HTML

1.1. CNN模型的构造

1.2. CNN模型的训练过程

1.2.1. 数据的初始化

1.2.2. 构造CNN模型

1.2.3. 训练CNN模型

2.1. 数据集

2.2. 实验的评价标准

2.3. CNN的测试实验

2.3.1. 彩色语谱图实验

2.3.2. 学习率对比实验

2.3.3. 样本对比实验

2.3.4. 全连接层输出节点对比实验

2.3.5. 激活函数对比实验

2.3.6. CNN模型参数设置

2.4. 基于SVM、BP神经网络和CNN的语谱图分类实验

目录

留言板

基于CNN的普米语孤立词语谱图分类

黔西南州广播电视大学 人事科, 贵州 兴义 562400

作者简介: 董华珍, 硕士, 主要从事智能计算方面的研究 .

Primi Isolated Word Spectrogram Classification Based on Convolutional Neural Network

Personnel Section, Southwest Guizhou Autonomous Prefecture Radio & Television University, Xingyi, Guizhou 562400, China

计量

出版历程

基于CNN的普米语孤立词语谱图分类

作者简介: 董华珍, 硕士, 主要从事智能计算方面的研究 黔西南州广播电视大学 人事科, 贵州 兴义 562400

English Abstract

Primi Isolated Word Spectrogram Classification Based on Convolutional Neural Network

全文HTML

1.1. CNN模型的构造

1.2. CNN模型的训练过程

1.2.1. 数据的初始化

1.2.2. 构造CNN模型

1.2.3. 训练CNN模型

2.1. 数据集

2.2. 实验的评价标准

2.3. CNN的测试实验

2.3.1. 彩色语谱图实验

2.3.2. 学习率对比实验

2.3.3. 样本对比实验

2.3.4. 全连接层输出节点对比实验

2.3.5. 激活函数对比实验

2.3.6. CNN模型参数设置

2.4. 基于SVM、BP神经网络和CNN的语谱图分类实验

目录

黔西南州广播电视大学人事科, 贵州兴义 562400

作者简介:
董华珍, 硕士, 主要从事智能计算方面的研究 .

作者简介: 董华珍, 硕士, 主要从事智能计算方面的研究
黔西南州广播电视大学人事科, 贵州兴义 562400