-
开放科学(资源服务)标识码(OSID):
-
随着水产养殖业的快速发展,集约化养殖规模逐渐扩大,人工合成饲料在水产养殖中处于不可或缺的地位。2020年产业报告数据显示,在水产养殖中饲料成本占总成本的67.35%[1]。在工厂化养殖以及池塘圈养模式中,鱼类养殖密度高,投喂采取机械投喂的方式定时定量投喂,无法根据养殖鱼群的实际需求进行投喂,容易造成投喂不足或投喂过量的问题,使得饲料利用率不高,增加了养殖成本。根据鱼类实际摄食量来精准投喂可以提高饲料利用率、降低养殖成本,其关键在于养殖鱼群摄食强度的准确识别。目前,实现养殖鱼群摄食强度准确识别的方法主要有计算机视觉技术和被动声学技术。计算机视觉技术虽能自动化、非入侵地分析鱼群摄食行为,但受水质浑浊、光照及鱼群密度影响,难以识别高密度加州鲈的摄食强度[2]。相比之下,被动声学技术可能更具优势,并且不会对监测目标产生危害[3],能够实现24 h摄食监测,可实时反映鱼群在摄食过程中的状态,弥补视觉监测的不足。目前,许多研究者在试验环境下初步探究了鱼类摄食声信号和鱼类摄食强度及饱食度的相关性。文献[4]在试验环境下分析了加州鲈喂食期间的时域和频域特征,认为吞食间隔、振幅极差及功率积分值均可以作为摄食活跃度的量化指标,而共振峰与梅尔倒谱系数可作为摄食声识别参数;文献[5]在试验环境下结合图像和声音对大口黑鲈摄食过程进行研究,发现摄食声压级与养殖密度相关性较强,且呈正相关;文献[6]在试验环境下通过水听器采集了大菱鲆摄食期间发出的声音并对其进行研究,结果表明声学信号与饲料需求量之间存在线性关系;文献[7]对采集到的罗非鱼在摄食过程中产生的声信号进行研究,研究结果显示罗非鱼的摄食声音频率在0~6 kHz,且摄食声的功率与摄食活力呈正相关。但上述研究未对鱼类的摄食强度进行量化,并且仅在试验环境下开展了研究,难以直接应用于高密度加州鲈养殖情况下的摄食强度识别。
针对上述问题,本文提出一种基于被动水声信号的鱼群摄食强度识别方法,采用被动声学技术获取高密度养殖的加州鲈鱼群的摄食声信号,提取并筛选可衡量摄食强度的声学特征参数,从而建立粒子群算法优化—多层感知机(PSO-MLP)识别模型,以期实现高密度养殖下的加州鲈摄食强度的分类识别。
全文HTML
-
试验地点为华中农业大学水产学院教学实训(二)基地。试验材料为高密度养殖状态下的加州鲈,单尾鱼的重量在300~500 g,养殖密度为65~70尾/m3。日常投喂饲料来自唐人神集团湖北省分公司的膨化浮料5号。
摄食声信号采集装置示意图如图 1所示,其主要包括SM2+型声学记录仪、HTI-96-MIN型水听器和摄像机。声学记录仪和水听器用于采集和存储摄食声信号,摄像机同步采集摄食过程中的视频,用于标记及验证鱼群的摄食状态。
-
如图 1所示,水听器分别置于两个养殖桶水面下50 cm处。为尽量减少噪声的影响,提高信噪比,对两桶内的摄食声信号采取先后采集的方式。采用一轮多次投喂模式:单次饲料投喂量为250±50 g,每次投喂后等待至水面无漂浮饲料且水面基本平静后再进行下一次投喂,根据加州鲈鱼群实际摄食情况调整投喂次数,直至大部分鱼不摄食或水面长时间有残余饲料时停止。投喂前录制3 min背景噪声,用于预处理时的采样降噪。水声信号的采样频率为4 000 Hz,每次采集时长6~10 min。加州鲈一餐中的摄食声信号和在投喂前录制的背景噪声共同构成了一条摄食声信号,通过多次采样共采集了200条加州鲈摄食过程的水声信号和200条同步视频信号。所采集的摄食声包括水体波动的声音、咀嚼吞咽饲料的声音、鱼类抢食的声音、鱼类身体拍打水面的声音。
-
信号预处理主要包括降噪滤波和信号分段。
本文采用频谱减法来降低摄食声信号的背景环境噪声。首先对带噪声的音频信号进行频谱分析;然后估计噪声的频谱,并从带噪声信号的频谱中减去估计的噪声频谱,得到降噪后的摄食声信号。为了进一步提高摄食声信号信噪比,在降噪后通过巴特沃斯滤波器来对摄食声信号进行滤波,其中滤波器的阶数为4,截止频率为1 000 Hz[8]。由于采集的声信号中会存在不同强度的摄食声段和无效声段,需要对原始信号进行分段,得到用于分类识别的有效声段。在音频处理软件Adobe Audition 2020的多轨模式下对声像进行同步处理,通过同步视频中的摄食情况来确定摄食声信号所对应的摄食状态并进行切分,将不同强度的摄食声信号截取成时长为3 s的信号样本,共得到9 600个信号样本。
-
如图 2所示,参照同步视频将摄食声样本标注为强、中、弱、无4类,每类包含2 400个信号样本。其中摄食声样本为强表示鱼群迅速聚集于投饵区并进行抢食;为中表示鱼群游至投饵区并进食,聚集面积减小;为弱表示鱼群进食缓慢;为无表示鱼群不再摄食,开始有剩余饵料。
使用SPXY(sample set partitioning based on joint X-Y distance)法[9]进行样本划分,使摄食强度相同的样本为一组,每组内用SPXY法按4∶1将数据划分为训练集和测试集,得到训练样本7 680个,测试样本1 920个。
-
相关研究证明特征提取是识别模型进行有效识别的关键[10]。本文主要提取加州鲈摄食声的短时平均能量、短时平均过零率[11]、梅尔频率倒谱系数[12-13]、基于功率谱的主峰频率和主峰值[14]、小波包分解的频段能量以及时频图的颜色和纹理等特征[15]。
梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为声音信号的重要频谱特征,广泛应用于语音识别领域且效果显著[12-13]。本文提取了12维梅尔频率倒谱系数。小波包分解能够捕捉信号的时频局部特征,依据信号特性与分析需求灵活地选择与信号频谱匹配的频带,适用于提取鱼声信号特征[11]。本文通过4层小波包对信号样本进行分解,提取16维摄食声频段能量特征。小波时频图能够将信号的时间、频率和能量表示在一张图中。相比于一维信号,其携带的信息更为丰富,具有更好的识别稳定性和准确率[16-18]。因此,本文采用连续小波变换生成小波时频图。通过观察发现,不同摄食状态小波时频图的颜色和纹理特征差异较大。针对颜色特征,提取HSV分量色彩的平均强度、颜色方差和色彩偏移性[17],共9个HSV分量特征。对于纹理特征,提取灰度共生矩阵的能量、熵、惯性矩、相关性,计算这4个纹理参数的均值和标准差,形成8维纹理特征。
将上述特征提取出来后,建立鱼声信号特征向量X=(x1,x2,…,x49),其中x1为短时平均能量,x2为短时平均过零率,x3为功率谱主峰频率,x4为功率谱主峰值,x5-x16为梅尔频率倒谱系数,x17-x32为小波包分解频段能量,x33-x41为小波时频图颜色特征,x42-x49为小波时频图纹理特征。
-
特征提取是摄食状态识别的关键,其为识别提供了数据支撑,但过多的特征会导致数据冗余、增加计算时间。所以要选择与摄食强度较为相关的特征,以提升分类模型识别效率与识别精度[19]。因此本文对比了3种特征选择方法:基于随机森林(Random Forest,RF)算法[20-21]的特征选择、基于皮尔逊(Pearson)相关性分析 [22]的特征选择以及基于主成分分析(Principal Component Analysis,PCA)[23]的特征选择。通过模型识别准确率评估不同的特征选择方法在摄食强度识别问题上的性能差异,从而找出最适合本文研究对象的特征选择方法,以提高后续识别模型的可靠性和准确性。
-
本文主要以粒子群优化算法PSO和多层感知机MLP为基础建立摄食强度识别模型。将PSO与MLP相结合,利用PSO的全局优化能力来优化MLP的参数,从而提高模型的识别精度和稳定性。改进后的算法既可以利用PSO来优化MLP的参数,避免局部最优解的问题,又可以利用MLP的强大映射能力来建立摄食强度与相关特征之间的复杂关系,从而实现对摄食强度的准确识别。
PSO粒子群算法是一种基于群体智能的优化算法。它模拟了鸟群或鱼群等群体的行为,通过个体之间的协作和信息共享来搜索最优解[24-25]。该算法在n维解空间中启动,初始化种群规模为m。每个粒子的位置代表一个可能的解,同时也决定了由目标函数计算出的适应度。通过适应度的大小即可判断解的优劣。每次迭代中,粒子通过适应度大小找到自身最优解(即个体极值pi)和整个种群中的最优解(即全局极值G)来更新速度和位置。
PSO算法位置和速度更新公式为:
其中:vi,vi+1分别为第i,i+1代粒子的速度;xi,xi+1分别为第i,i+1代粒子的位置;c1为个体加速因子;c2为全局加速因子;w为惯性因子;r1和r2是(0,1)上的随机数;pi为粒子i的极值;G为全体粒子的极值。
惯性因子的确定,目前采用较多的是线性递减权值,公式如下:
其中:Gk是最大选代次数;g为当前迭代次数;wini为初始惯性权值;wend是迭代至最大进化代数时的惯性权值。
MLP是一种基于神经网络的动态分类器,主要由输入层、隐藏层和输出层构成,层与层之间通过全连接的方式进行连接,中间的隐藏层可以是多层[26-27]。其中,输入层进行信号的输入,隐藏层将输入值按照一定权重进行大小调整并组合为隐藏层的输入值,之后通过隐藏层的激活函数对输入值进行变换得到隐藏层输出结果,输出层将最后一个隐藏层的输出值接收,将它们转化为输出值,其过程如图 3所示。
每一层的输入与输出的关系为:
其中:hj为隐藏层第j(j=1,2,…,m,m为隐藏层节点数)个节点输出值;wij为输入层第i(i=1,2,…,n,n为输入层节点数)个节点到隐藏层第j个节点的权重;xi为第i个输入节点;lj为隐藏层第j个节点的阈值。
基于PSO-MLP模型建立流程如图 4所示。
1.1. 材料与仪器
1.2. 方法
1.2.1. 信号采集
1.2.2. 信号预处理
1.2.3. 样本标注与划分
1.2.4. 特征参数提取
1.2.5. 特征选择
1.2.6. 识别模型的建立
-
图 5是鱼群不同摄食状态下典型摄食声样本的时域波形,可见不同状态下的波形差异较为明显:强摄食强度下的信号强度最大,随着摄食强度的减弱,摄食声的强度也有明显的降低。
短时能量代表了每一帧内信号的能量值,反映了信号的动态能量特性[11]。图 6是4类典型信号样本的短时平均能量变化趋势。强摄食强度下此特征值最大,很容易与其他摄食强度的短时能量区分;无摄食状态的短时平均能量几乎为0;中摄食强度的短时能量比弱摄食强度稍强。图 7是不同摄食强度下短时平均能量范围分布图。随着摄食强度的依次减弱,短时平均能量不断减小且分布更加集中。不同摄食强度下的摄食声信号短时平均能量的差异较大,能将不同强度的摄食状态显著区分。
短时平均过零率能够在一定程度上反映出声音信号的频率特性,是较为重要的频域特征之一[11]。图 8是不同摄食状态下的4类典型信号样本的短时平均过零率变化趋势。图 9是不同摄食强度下短时平均过零率范围分布。当摄食强度为强和无时,该特征值都较小,但当摄食强度为无时特征值波动更加平稳,分布在10上下。同时,由图 9可知,4类信号样本的短时平均过零率分布范围有较多重合,差异不明显,不能将不同摄食强度的摄食状态显著区分。
-
功率谱反映了信号在不同频率下的功率分布情况。功率谱的主峰值是功率谱上功率的最大值,主峰频率为主峰值对应的频率。图 10为4类典型信号样本的功率谱,信号的频率范围主要集中在0~250 Hz,且在此频率范围有功率重叠现象。随着摄食强度的减弱,摄食声的功率也明显减小,不同摄食状态下的功率谱主峰值有较大差异。图 11、图 12是功率谱主峰频率和主峰值的范围分布图,由图可知:不同摄食强度下的主峰频率范围重合度较高,差异并不明显;但主峰值的差异较大,且随着摄食强度的减弱不断降低。
-
MFCC标度模拟人耳频率感知的非线性,大致遵循实际频率的对数分布,广泛应用于语音与动物发声识别[12-13]。图 13为每类摄食强度各20个样本的MFCC(共12个)变化趋势。由图 13可以看出,随着序列号的增加,MFCC的绝对值逐渐趋近于0。鱼群不摄食时,信号样本的MFCC分布较集中,变化规律相似。所有信号样本的前3个MFCC变化趋势基本一致,第二个系数都为峰谷,第三个系数为峰顶。当鱼群有摄食时,后9个MFCC的分布并不集中,规律不明显。显著性分析表明,不同摄食强度下第二个MFCC的差异性显著,能将不同摄食状态显著区分。
-
小波包分解通过计算信号在不同频率和时间尺度上的变换系数,得到信号在不同频率上的能量分布情况[16]。将4类信号样本在0~1 000 Hz范围内不同频段上的平均能量占比绘制成柱状图(图 14)。在0~250 Hz上能量分布最多,接近90%。不同摄食强度的摄食声信号在同一频率范围上的能量分布也有一定差异,其中:摄食强度为中的摄食声能量在0~250 Hz上的占比最高,接近95%;摄食强度为无的摄食声能量在0~250 Hz上的能量占比达到90%,说明了不摄食情况下的环境噪声能量大多也集中在0~250 Hz;强摄食强度和弱摄食强度的摄食声能量在0~250 Hz上的能量占比在80%~90%之间。这与功率谱分析得到的结果一致,摄食声信号的能量大多集中在低频频段上。
-
不同摄食状态下典型水声信号的小波时频图如图 15所示,其中:冷暖颜色代表小波能量值,越暖表示能量越大,横轴和纵轴分别表示时间和频率。随着摄食强度的减弱,图像的颜色和纹理变化逐渐减弱。所有样本的时频图HSV分量特征值分布规律如图 16所示。随着摄食强度的减弱,x33、x40、x413个颜色特征的均值呈增大趋势,而x34、x35、x36的均值逐渐减小且分布更加集中。不同摄食强度下x37、x38、x393个特征的分布范围有较多重叠,差异较小。显著性分析表明,颜色特征中,x33、x34、x35、x36、x41有显著差异,即在不同摄食强度下,时频图的色调特征、饱和度的平均强度以及亮度的偏移性差异显著,能将不同的摄食强度显著区分。
所有样本的时频图纹理特征值分布规律如图 17所示。随着摄食强度的减弱,所有纹理特征的均值都呈逐渐减小的趋势,说明摄食声时频图的纹理信息在能量、熵、惯性矩和相关性上有一致的变化趋势。同时,随着摄食强度减弱,x42、x47、x48的分布更加集中,而x49的分布范围则逐渐扩大。各摄食强度下x43、x44、x45的均值差异较小,分布范围也有较大程度的重叠。显著性分析表明:在时频图的纹理特征中x42、x46、x47差异显著,即小波时频图共生矩阵能量的均值及惯性矩的均值和方差有较为显著的差异,说明不同摄食状态下的摄食声时频图的复杂集中程度以及纹理清晰度差异较大,能将不同的摄食强度显著区分。
-
通过RF算法计算的各个特征的重要性如图 18所示。重要性排在前15的特征为x36、x4、x47、x23、x41、x9、x40、x35、x33、x13、x27、x46、x6、x43、x42。基于Pearson的特征重要性排序如图 19所示。图 19展示了较为重要的前20个特征。本文取其中的前15个特征作为输入分类模型的最终特征,这些特征是x33、x35、x47、x49、x48、x36、x41、x44、x4、x34、x46、x42、x6、x43、x40。对所有49个特征进行主成分分析,其贡献率分布如图 20所示:前2个主成分贡献率较高,分别为23.55%和22.17%;第3至第15个主成分,贡献率急剧下降;之后贡献率变化趋于稳定;第37及其之后的主成分贡献率接近于0。前15个主成分组成的累计贡献率达到87.54%,代表了原始数据的大部分信息,因此本文用前15个主成分构造摄食强度识别的特征向量。
-
将测试集输入训练好的分类模型中,得到的结果如表 1所示。将提取的信号全特征输入分类模型进行分类识别时,PSO-MLP分类模型的平均识别准确率为96.76%,比优化前的MLP分类模型准确率提高3.65个百分点;1 920个测试集样本的分类时长(以下简称“分类时长”)为8.23 s,比优化前MLP模型减少0.48 s。将提取出的信号特征筛选后再进行分类识别时,基于不同特征选择方法的PSO-MLP模型的对比结果表明:特征选择能在尽量保证准确率的情况下有效缩短分类时长;PCA对模型的准确率和运行速度的提升作用最显著,其准确率高达97.88%,分类时长为6.24 s。
-
为验证基于PCA特征选择的PSO-MLP分类模型的有效性及普适性,建模完成后,另外独立采集了一段时长为480 s的摄食声信号,使用滑动窗口对摄食声信号进行输入,每次滑动距离为1 s。使用已有的分类模型对验证样本进行识别,识别模型MLP、PSO-MLP、RF-PSO-MLP、Pearson-PSO-MLP、PCA-PSO-MLP的平均识别准确率分别为81.25%、84.36%、87.5%、85%、92.5%。识别模型PCA-PSO-MLP的识别准确率最高,能够通过摄食声信号准确识别不同的摄食强度。图 21为模型验证结果,在不同摄食状态衔接的过程中,识别准确率有所下降。该现象在由中摄食强度到弱摄食强度的切换过程中尤为明显。这是因为在相邻摄食强度的切换中,摄食声是逐渐变化的,其特征差异不显著,导致模型识别准确率有所下降。但总体来看,本文所使用的方法能够较准确地识别4种摄食状态变化,且具有一定程度的普适性。
2.1. 特征提取与分析
2.1.1. 时域特征
2.1.2. 功率谱
2.1.3. 梅尔频率倒谱系数
2.1.4. 小波包分解频段能量
2.1.5. 小波时频图的颜色特征和纹理特征
2.2. 特征选择
2.3. 摄食强度识别
2.4. 模型验证
-
本研究采用被动声学技术获取高密度养殖加州鲈在摄食过程中的水声信号,结合不同的特征提取方法和特征选择方法建立了基于被动水声信号的鱼群摄食强度识别模型,进而实现对高密度养殖加州鲈摄食强度的识别。结果显示:
1) 不同的水声信号特征在鱼群摄食强度识别中的贡献度有较大差异。功率谱的主峰值、梅尔频率倒谱系数中的第二个系数、在750~1 000 Hz上摄食声信号的能量占比、水声信号时频图的色调平均强度、偏移性、饱和度的平均强度以及亮度的方差和偏移性、水声信号时频图共生矩阵的能量和惯性矩的均值和标准差对摄食强度识别的贡献度较大,在多种特征选择方法下其贡献度都排在前15位。其中,贡献度较大的大部分特征来源于摄食声信号时频图,这是由于摄食声信号时频图能将时间、频率和能量在一张图中表示出来,携带了较为丰富有效的信息,且能将局部特征较好地表现出来。
2) 从识别模型的准确率来看,基于PCA特征选择的PSO-MLP识别分类模型的识别准确率最好,达到97.88%,效率最高,识别时长为6.24 s,识别准确率和识别效率均优于基于Pearson和PCA特征选择的PSO-MLP分类模型。此分类模型在验证试验中能够较为准确地识别4种摄食状态的变化,具有一定的普适性。本研究表明:被动声学技术能快速有效地识别高密度养殖状态下加州鲈的摄食强度,准确率较高,相比于计算机视觉技术,可不受水体能见度、光照强度的影响,具有较好的稳定性。