-
开放科学(资源服务)标识码(OSID):
-
瑕疵/缺陷检测是制造业的一项重要任务,有助于确保产品的质量和防止潜在的安全危险. 木质板材是林业产业经济中最重要的资源型原材料之一,在国民经济体系中发挥着不可或缺的作用[1]. 在瑞典、芬兰等森林资源充裕的发达国家,木材综合利用率高达90%. 与之形成鲜明对比的是,我国木材综合利用率不足60%,造成了严重的资源浪费[2]. 随着中国经济的快速发展,人们越来越追求高品质的生活,导致对木材和木制品的需求增加,如实木板、人造板、纸和纸板等消费水平位居世界前列,随之而来对木制品的制造要求也日益严格. 然而,现有的木材储存能力和加工水平使其难以满足快速增长的需求. 木材供应不足和使用率低导致中国木材工业发展受限. 在木材加工生产中,木材缺陷会对木材品质产生很大的影响,而木材品质又决定木材及其制品的商品价值和使用价值. 国内木材原材料综合使用率偏低的主要原因之一是木材缺陷检测效率较低[3].
近年来,众多学者为了提高木材原料综合使用率,研究并提出了木材缺陷的检测方法,如基于3D扫描技术的木材缺陷定量化分析、钻入阻抗法检测木材缺陷、基于快速算法和LBP(Local Binary Pattern,LBP)算法的木材缺陷识别等[4-7]. 这些方法或多或少存在着检测设备成本高、对实际检测工作环境要求苛刻等问题,无法大规模产业化推广应用. 而基于机器视觉的木材缺陷检测技术既可降低识别过程中主观因素的影响,又可摆脱对特定检测设备的依赖.
文献[8]提出一种基于修剪决策树的人造板表面缺陷识别方法,该方法通过对已有的人造板缺陷图像进行预处理和分割,获取缺陷形状和纹理特征作为输入,然后利用成本复杂度算法对生成的CART(Classification And Regression Tree,CART)树进行修剪,最终识别人造板缺陷. 文献[9]提出一种基于近红外(Near-Infrared Spectroscopy,NIR)光谱和逆神经网络的木材缺陷识别方法. 此外,Mohsin等[10]应用多通道Gabor过滤器和k均值聚类来检测木材缺陷的位置和形状. Riana等[11]提出一种用于图像分割的模糊最小-最大神经网络(Fuzzy Min-Max Neural Network,FMMIS),并使用SVM(Support Vector Machine,SVM)分类器对各种木材缺陷进行分类,准确率达到91%. Hu等[12]提出了树状结构SVM,用于识别不同的节点,该方法取得了较高的分类率. 然而,SVM分类器可以对小样本产生良好的性能,对大样本却不能. Cho等[13]提出了一种基于主成分分析(Principal Component Analysis,PCA)和压缩感知的自组织特映射(Self-Organizing Map,SOM)神经网络识别某些木材缺陷(死结、活结和裂纹)的方法. 这种方法是无监督聚类方法之一,与传统聚类方法(如k均值)相比,SOM神经网络是一种用于模式分类和数据压缩的神经网络模型,受网络权重初始化和噪声数据的影响较小,且SOM神经网络相较于其他神经网络模型具有较高的鲁棒性,对数据中的小扰动和噪声具有很好的抗干扰能力. 然而,当数据量非常大时SOM神经网络需要执行大量的计算才能达到理想结果,会导致计算时间较长. Chen等[14]采用不同缺陷权重的凸优化(Convex Optimization,CO)作为平滑的预处理方法,并采用Otsu分割法对木材缺陷图像进行分割,提取木材缺陷的几何和强度特征,并使用回归树(CART)分类器对各种木材缺陷进行分类.
深度学习具有特征层次深、检测精度高、鲁棒性好等优点,已逐步应用于各个领域的缺陷检测[15]. 文献[16]改进了SSD模型的VGG(Visual Geometry Group Network,VGG)网络部分,使用深度残差网络替换VGG网络. 改进后的SSD(Single Shot MultiBox Detector,SSD)模型对冷杉和松木缺陷的平均检测准确率超过89%. 文献[17]利用DenseNet网络将改进的SSD模型和迁移学习与改进的SSD模型相结合,实现了木材缺陷的高精度检测. 此外,还有基于区域建议的方法,如R-CNN(Region-based Convolutional Neural Network,R-CNN)模型和快速R-CNN模型[18-19].
尽管以往的研究已经取得了重大进展,但在缺陷检测方面仍然存在一些挑战,如木质板材表面的复杂性及缺陷类型和尺寸的变化. 这些缺陷在原材料面板和单板性能上不同,除了背景材料差异外,即使是相同的凸起对于图像端的原材料板和成品板来说也有很大不同. 另外,这些图像分割和特征提取过程通常困难和复杂,因为每块木材都有独特的外观,并且可能有多种类型的缺陷. 针对这些问题,本文提出一种基于可变性卷积网络和注意力机制的新方法来检测和识别木质板材缺陷. 结果表明,本文方法采用的网络结构优于现有其他方法,该网络无需对图像预处理和特征提取提出重大要求,在减少图像处理时间的前提下,可以提高木质板材缺陷的检测精度.
本文的贡献如下:
1) 通过可变形卷积网络(DCN)将矩形网格转换为变形网格,使模型专注于具有更多有用图像信息的区域.
2) 将DCN输出馈送到门控循环单元(GRU)层以学习缺陷图像的高级特征.
3) 通过关注输入图像的最重要特征,应用注意力机制加强瑕疵区域的高亮度,从而提高模型识别的准确性.
全文HTML
-
本文模型最初受到规范卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)架构的启发,结合卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)的优势,利用了局部相关性和长景上下文来识别特征信息. 在相关研究中,学者们评估了两种类型的RNN,它们分别是长短期记忆(Long Short-Term Memory,LSTM)和门控循环单元(GRU). 与LSTM一样,GRU具有控制单元内部信息流的门控单元,但没有单独的存储单元. 在性能和复杂性方面,GRU显著优于LSTM. 因此,本文采用GRU作为模型的构建块.
近年来,注意力架构在图像特征识别中得到广泛应用,并取得了巨大成功. 由于注意力机制能够使模型更加注重不同的特征区域,提高模型对关键信息的关注度,同时减轻对噪声和无关信息的处理,因此在图像识别任务中使用注意力机制可以帮助模型更加准确地定位并识别缺陷.
本文开发了一种将CRNN网络作为编码器部分与注意力部分相结合的架构. 该模型利用了规范的CRNN架构,但在CRNN中没有使用常规CNN,而是使用DCN,即一种特殊类型的CNN. DCN是一种增强了感受野变化的卷积神经网络,在固定尺寸的卷积过滤器上运行,就像常规CNN一样,但具有各种形状的网格. DCN的可变形卷积核能力,可以更好地适应各种不同形状和尺寸的对象,从而提高网络的泛化能力. 与传统CNN相比,DCN可以在感受野形状和大小发生变化时对输入信号更精确地建模.
图 1为板材缺陷识别模型的端列端架构. 本文模型的输入是N×F矩阵,其中N是特征序列的长度,F是特征的维数. 模型结构包括一层DCN、多层单向GRU. GRU层的输出被送入到注意力机制层,生成更紧凑的特征表示. 应用线性变换和Softmax解码特征进行判别输出.
端到端模型可以直接输出置信度分数,无需任何后续处理方法,也不涉及搜索算法,无需事先对齐即可训练模型. 当输出超过预定义阈值时,系统就会被触发. 该模型的原理是在输出置信度分数时,通过设定一个预定义阈值来触发系统,使模型能够自动分类和处理需要的信息. 这种模型的优点是可以快速地进行训练和推理,并且准确率通常较高.
-
图像特征中的信息容易变形,且只有少数区域有用. 规则卷积在预定义的矩形网格上运行,因此过滤器无法用各种形状适当地覆盖特征结构,限制了其在特征中学习更多图像信息的能力. 本文使用可变形卷积代替传统卷积来解决此问题. DCN学习将矩形网格转换为变形网格,使模型专注于具有更多有用图像信息的区域. 可变形卷积架构如图 2所示,它由两个步骤组成.
步骤1 生成偏移场:偏移表示执行可变形卷积时需要使用的像素坐标. 每个偏移值是一对(offsetn,offsetf),其中offsetn和offsetf分别是沿时间轴和频率轴的像素坐标. 偏移量是可学习的变量,由对输入特征操作的常规卷积(ConvOffset)产生.
式(1)中(LN,LF)是输入I的时间和频率维度的卷积层过滤器尺寸.
$I \in \mathbb{R}^{N \times F}$ 是图像特征,$M_{\text {offset }} \in \mathbb{R}^{C \times L N \times L F}$ 是传统CNN的可学习权重,过滤器的数量是C=LN×LF×2,过滤器尺寸(LN,LF)和步长(SN,SF). 偏移量Offsets$O \in \mathbb{R}^{C \times N^{\prime} \times F^{\prime}}$ 其中$N^{\prime}=\frac{N-L N}{S N}+1, F^{\prime}=\frac{F-L F}{S F}+1. O[c, t, k]$ . O[c,t,k]是时频指数(t,z)通道c处可变形卷积的偏移量. 在每个大小为(LN,LF)的内核窗口中进行卷积时,需要生成LN,LF的偏移值. 为了确保产生的偏移值足够用于整个输入特征,需要将ConvOffset的过滤器数量设定为LN×LF×2.步骤2 双线性插值(BI):双线性插值一般是围绕偏移坐标像素值的加权和函数. 图 3显示了对工作网格的一个输入像素进行操作时的函数. 对于原始像素i1,使用具有对值(Δi,Δj)的4个像素i5,i6,i8,i9来计算新值i1′.
在该模型中,双线性插值函数使用偏移周围的4个像素,其值为u00=I(iL,jL),u01=I(iB,jL),u10=I(iL,jB),u11=I(iH,jH),其中,iL=offsetf,iB=offsetf+1,jL=offsetn和jB=offsetn+1.
双线性插值计算为:
式(3)中x,y∈{0,1},mxy是对应于像素uxy的权重,定义为:
式(4)中
$\Delta i= { offset }_f-\left\lfloor { offset }_f\right\rfloor, \Delta j= { offset }_n-\left\lfloor { offset }_n\right\rfloor$ .Δi,Δj用来表示偏移值offsetf和offsetn相对于其整数部分的偏移.步骤3 生成输出:DCN最终输出由另一个卷积(ConvOut)生成. 对于ConvOut的每个核窗,首先使用输入特征I和学习偏移值O之间的双线性插值来计算变形特征,然后将变形值乘以ConvOut的核权重,得到最终输出.
式(5)中,d[w,x,y]表示ConvOut在时频指数(x,y)第w个通道的输出,
$d \in \mathbb{R}^{T C \times N^{\prime} \times F^{\prime}}$ 也是DCN的最终输出,hxy是双线性插值.$M\in \mathbb{R}^{T C \times L N \times L F}$ 是ConvOut的可学习权重,与传统CNN类似,过滤器数量为TC,过滤器大小为(LN,LF)和步长(SN,SF).ConvOut被认为是两个输入的函数,输入特征I和偏移值O. ConvOut之后,DCNd中d的输出是(TC,N′,F′)形状. 为了保持d的形式(时间×频率)进行下一个块(GRU块),d需要被重塑为(N′,TC×F′).
-
门控循环单元可以使每个递归单元自适应地捕获不同时间尺度的依赖关系. 与长短期存储器(LSTM)单元类似,GRU具有控制单元内信息流的门控单元,但GRU不包括单独的存储单元.
在本文模型中,GRU单元紧接着连接到DCN单元. DCN的输出被直接馈送到GRU,而没有任何非线性激活函数. GRU被配置成具有初始隐藏状态b0=0、层数为LR和每层隐藏节点NR的多层GRU. 对于d=[d0,d1,…,dN′]输出中的每个元素
$d_n \in \mathbb{R}^{1 \times\left(N C \times F^{\prime}\right)}, N^{\prime}=\frac{N-L N}{S N}+1$ ,每层计算为:式(6)中,bn是隐藏状态下时间n时的GRU输出,bn-1是时间n-1隐藏状态或时间n=1时的初始隐藏状态b0. Mxr和hxr是从GRU输入调谐复位门的权重和偏置,分别从先前的隐藏状态调谐复位门. rn,kn和tn分别是重置门、更新门和新门. (Mxk,hxk),(Mbk,hbk)和(Mxt,hxt),(Mbt,hbt)的利用率相似,但是用于更新和新建门. σ是sigmoid函数,将输入映射到区间(0,1);tanh表示双曲正切函数,将输入映射到区间(-1,1);⊙是元素乘积.
-
本文根据文献[20]中5种注意力机制的比较研究得出结论,即共享参数非线性注意力取得了最好的效果. 因此,在本文模型中采用共享参数非线性注意机制来提取和强调最相关的隐藏GRU特征.
注意力机制框架如图 1所示. 注意力块使用注意力机制从编码器输出中学习归一化权重,最常用的注意力函数之一是加型注意力,使用具有单个隐藏层的前馈网络来计算权重.
式(7)中
$b=\left[b_0, b_1, \cdots, b_{N^{\prime}}\right] \in \mathbb{R}^{N^{\prime} \times T R}$ 是GRU层的输出,$M_0 \in \mathbb{R}^{T R \times T G}, M_1 \in \mathbb{R}^{T G \times T R}$ 是可学习权重,而$h_0 \in \mathbb{R}^{T G \times 1}, h_1 \in \mathbb{R}^{T R \times 1}$ 是前馈层的偏差.在式(7)中,矩阵
$\alpha=\left[\alpha_0, \alpha_1, \cdots, \alpha_{N^{\prime}}\right] \in \mathbb{R}^{N^{\prime} \times T R}$ 是注意力机制的权重. 固定长度向量c成为N′时间步长上α和b之间的加权平均值:通过线性变换(具有可学习的权重矩阵
$M_2 \in \mathbb{R}^{T R \times 2}$ 和偏差$h_2 \in \mathbb{R}^{2 \times 1}$ 生成预测输出,然后是softmax层为:在没有任何后处理方法的情况下,j值被用作最终置信度得分,并根据GRU特征进行木板缺陷检测.
1.1. 模型概述
1.2. 可变形卷积网络(DCN)
1.3. 门控循环单元(GRU)
1.4. 注意力模块
-
为了评估所提算法的性能,本文在4个木质板材缺陷数据集上进行缺陷识别实验,分别是Mader缺陷数据集、Lumber Grading红松木质板材数据集、Timber Defect Image数据集和WCTD木质板材缺陷数据集. 并将本文方法与其他3种对比方法(文献[21]、文献[22]和文献[23])进行比较分析. 为了实现从本文算法中获得结果,Matlab (R2015a) 在具有16 GB RAM、Intel core i7-470 K @ 4.0 GHz的计算机上使用.
-
Mader缺陷数据集是一个由瑞典皇家工学院制作的木质板材缺陷数据集,包括12个类别的缺陷(例如瘤、干裂等)和正常木材,共160张图像. 本实验中将其设为木质板材下的次数据集1.
-
Lumber Grading红松木质板材数据集是由美国USDA Forest Service提供的红松木质板材数据集,包括正常板材和各种程度的缺陷,共518张图像. 本实验中将其设置为木质板材下的次数据集2.
-
Timber Defect Image Dataset是由英国伦敦帝国学院提供的木材缺陷数据集,包括正常板材和多种缺陷,如裂纹、瘤、旋度、孔洞等,共660张图像. 本实验中将其设置为木质板材下的次数据集3.
-
WCTD木质板材缺陷数据集是由中国林业科学研究院木材工业研究所提供的木质板材缺陷数据集,包括多种木材种类,共12 000张图像. 本实验中将其设置为木质板材下的次数据集4.
根据木质板材缺陷的工艺和原因不同,分为生物危害缺陷、生长缺陷和加工缺陷. 其中,生长缺陷和生物危害缺陷是自然缺陷,具有一定的形状和结构特征,也是木材等级分类的重要依据. 一般来讲,木质板材生长缺陷和生物危害缺陷可分为死节、活节、虫洞、腐烂等. 本文实验使用4个木质板材缺陷数据集的木材采样图像,通过实木板激光轮廓和彩色集成扫描技术获得了5 000多张300×300有缺陷的木板图片. 其中,常见的缺陷主要包括死节、活节、腐烂、霉变、裂纹、虫眼等6种特征缺陷,如图 4所示.
-
根据准确性、灵敏度和特异性指标评估本文方法与其他3种对比方法的性能.
式(10)中,正确检测多张木质板材瑕疵图像为tP,正确拒绝多张木质板材缺陷图像为tN(真阴性),错误地将多张木质板材缺陷图像误判为正常的情况记为fP(假阳性),错误地拒绝一些真实存在木质板材缺陷图像的情况记为fN(假阴性).
-
将本文方法与文献[21-23]进行比较,几种方法在4个不同木质板材缺陷数据集上的性能比较结果如图 5-图 7所示.
本文方法与其他3种对比方法在不同数据库的准确率比较如图 5所示. 本文方法在4个数据集上的准确率分别为96.5%,98%,99.2%和95%. 具体为:在数据库1上与文献[21]、文献[22]和文献[23]等现有方法相比,本文方法的准确性分别提高了2.4%,4.7%和8.9%. 在数据库2上与其他3种对比方法相比,本文方法的准确率分别提高了5.3%,9.0%和7.4%. 在数据库3上本文方法的准确率比其他3种对比方法的准确率分别提高了11.2%,4.8%和9.5%. 在数据库4上与其他3种对比方法相比,本文方法的准确率分别提高了13.2%,8.3%和3.1%.
图 6显示了本文方法与其他3种对比方法在不同数据集上的灵敏度比较. 本文方法的灵敏度分别为88.7%,92.6%,94.5%和95.3%. 具体为:在数据集1上本文方法的灵敏度比文献[21]、文献[22]和文献[23]分别高9.2%,3.5%和10.2%. 在数据集2上本文方法的灵敏度比文献[21]提高了5.9%,比文献[22]提高了3.3%,比文献[23]提高了16.6%. 在数据集3中与其他3种对比方法相比,本文方法的灵敏度分别提高了6.8%,4.3%和3.7%. 在数据集4中本文方法的灵敏度比文献[21]提高了10.9%,比文献[22]提高了7.6%,比文献[23]提高了4.4%.
4种算法在不同数据集的特异性比较如图 7所示. 从图 7中可以看出,本文方法的特异性为92.5%,96.3%,97%和95.8%. 在数据集1上本文方法的特异性优于文献[21]12.4%,优于文献[22]8.2%,优于文献[23]17.8%. 在数据集2上本文方法的特异性优于文献[21]8.6%,优于文献[22]14.2%,优于文献[22]21%. 在数据集3中与文献[21]、文献[22]和文献[23]相比,本文方法的特异性分别提高了13.8%,8.3%和4%. 在数据集4上本文方法的特异性分别比其他3种对比方法提高15.6%,4.6%和13%.
为了清晰直观地观察数据,本文将以上评价指标的性能总结如下(表 1).
从表 1中可以清楚地看到,本文方法在4个木质板材缺陷数据集上的各个性能均优于其他3种对比方法. 实验结果说明,本文模型可以更好地适应各种不同形状和尺寸的对象,提高网络泛化能力,从而更精确地检测和识别木质板材缺陷.
-
为了更直观地分析引入可变性卷积网络与注意力机制对模型性能的提升,本文设计了木材缺陷识别实验对不同模型进行分析. 由图 8可知,本文方法的平均识别查准率约为90.1%,明显高于其他3种对比方法. 其中,对于腐烂、霉变这两种缺陷,本文算法识别效果略优于其他3种对比方法. 而对于节子(死节、活节)、虫眼、裂纹的识别效果,本文方法均明显优于其他3种方法.
2.1. 数据集描述及缺陷图像
2.1.1. Mader缺陷数据集
2.1.2. Lumber Grading红松木质板材数据集
2.1.3. Timber Defect Image Dataset
2.1.4. WCTD木质板材缺陷数据集
2.2. 实验结果
2.2.1. 不同性能对比
2.2.2. 缺陷识别效果对比
-
木材在生长与加工过程中受到环境与工艺影响会形成不同缺陷,这些缺陷直接影响木制产品的等级和品质. 因此,快速准确地进行木材缺陷检测对木材有效利用具有重要的意义. 为了提高木质板材缺陷识别的准确率与速度,本文提出了基于可变形卷积网络和注意力机制的神经架构模型. 可变形卷积层驱动模型更多地关注缺陷图像区域,从而提取图像的深层特征;而注意力机制则进一步关注图像特征中最关键的部分,加强缺陷区域的高亮度进行缺陷识别. 通过在4个木质板材缺陷数据集上将本文方法与文献[21]、文献[22]和文献[23]3种分类识别方法进行比较分析,结果表明本文方法具有最佳的准确率、灵敏度及特异性,分类识别准确率高达98%,验证了本文方法具有很好的木材缺陷识别能力. 本实验结果可以帮助学者们了解木质板材缺陷检测的相关研究进展,并提供一定的参考价值. 未来的工作需要探索腐烂、霉变这两种缺陷查准率不高的原因和改进方法. 此外,本课题组计划研究目标位置信息的回归方法,以提高目标的定位准确率,从而进一步提升目标识别的整体准确率.