-
高质量图像携带捕获场景的丰富信息,可以在人工智能、遥感、监视系统和高级驾驶员辅助系统等领域执行高级计算机视觉任务[1-2]. 但是,在不良照明条件下,当传感器的入射光量不足时,会降低所获取图像的动态范围,导致亮度和对比度下降[3]. 而且,由于每个像素接收的光子数量有限,弱光图像会因加性噪声而损坏. 因此,对弱光图像的增强是一项繁琐的任务.
目前,已经提出了多种用于弱光图像增强(Low-Light Image Enhancement,LLIE)的方法,通常采用算法分解和图像分解来简化问题[4]. 算法分解主要将LLIE过程分为多个单独的阶段. 基于Retinex的方法尝试先估计照明分量,然后再估计反射率[5]. 文献[6]中的增强算法分解为亮度增强、细节增强和最终增强3个阶段. 图像分解包括将图像分解为多个图像,每个图像都具有唯一特征. 文献[7]中采用多重曝光图像加权融合机制来增强欠曝光图像的细节. 所有通用方法都基于手工制作的功能和具有许多超参数的某些统计模型,因此这类方法很难应用于不同的现实世界场景中. 近年来,研究人员已成功将深度神经网络应用于弱光图像增强的问题. 文献[8]采用基于端到端的全卷积网络U-net方法对图像进行降噪,然后利用直方图拉伸技术将原始的短时间曝光传感器图像转换为RGB(红绿蓝)图像,增强了图像的对比度和色彩饱和度. 文献[9]提出一种增强欠曝光照片的神经网络,首先通过训练不同光照下的模型来估计欠曝光图像与光照间的映射,然后利用该映射来增强图像的对比度. 但是,大多数现有基于深度神经网络的图像增强方法都忽略了功能通道和多层功能的重要性. 因此,文献[10]和文献[11]将注意机制引入弱光图像增强网络中,通过重新定义输入特征的通道重要性来提高图像的对比度.
尽管上述方法在亮度增强方面取得显着效果,但在颜色与细节恢复中仍然存在一些局限性,并且在极端弱光条件下表现不佳. 为了简化LLIE问题,将其分解为两个较小的问题:①在给定暗图像的情况下估计最佳光照条件;②将颜色信息恢复到原始状态. 为了实现上述目标,本文提出一种基于颜色注意机制的增强算法,该算法使用CIE LAB(国际照明委员会提出的色彩系统)将图像分解为亮度和颜色分量,并使用基于颜色注意的CNN网络对每个分量独立增强. 基于颜色注意的网络由嵌入在弱光图像中的关键颜色特征驱动,这些关键颜色可以为图像增强提供有用的提示,这些提示将用作先导信息引导和扩展网络的注意力,完整地恢复原始图像的颜色.
HTML
-
CIE LAB色彩空间是在1976年由国际照明委员会(International Commission on illumination,CIE)提出的一种基于人类生理特征的色彩系统[12],LAB颜色通道由1个亮度通道L和2个色度通道A,B组成. L在[0, 100]之间取值,L=0表示白色,L=100表示黑色;A,B在[127, -128]之间取值,A的正数代表红色,负数代表绿色,B的正数代表黄色,负数代表蓝色. LAB色彩空间具有广阔的色域,能够表现出其他颜色空间所不能表现的色彩,而且颜色均匀性强,接近人类的感知视觉,特别是L分量与人类视觉匹配密切,因此常常采用L分量来调整亮度对比.
LAB色彩空间不能直接由RGB色彩空间转换获得,需要借助XYZ色彩空间,即首先将RGB空间转换到XYZ空间上
然后,再将XYZ空间转换到LAB空间
式(3)中:t表示f(t)中的变量,X,Y,Z为RGB转换到XYZ空间后计算出来的值,Xn,Yn,Zn表示参照白点CIE XYZ三色刺激值,一般默认为95.047,100.0,108.883[13].
-
本文提出的基于颜色注意机制的增强算法首先将弱光图像从RGB色彩空间转换至CIE LAB色彩空间,将弱光图像分解为亮度和颜色两个分量,其次利用独立的CNN模型对两个分量分别独立增强,然后对增强后的颜色分量使用监督注意力机制,通过分析色频图,忽略高频和低频,选择出属于图像感兴趣区域的颜色,最后将亮度和颜色分量进行融合获得最终的增强图像.
-
给定一个弱光图像,假定图像的亮度分量为XL∈RH×W,颜色分量为XAB∈RH×W×2,将分量分别输入CNNL和CNNAB两个用于增强亮度和颜色的神经网络中,其增强后的亮度和颜色分量分别表示为
${\hat X_L}$ ∈RH×W和${\hat X_{AB}}$ ∈RH×W×2,颜色注意映射表示为$\hat M$ ∈RH×W×2,稀疏注意点表示为$\hat P$ ∈RH×W×2. 本文提出的增强算法旨在利用CNNL网络将低亮度的灰度图像映射到降噪后的增强亮度图像中,映射关系表示为$\mathfrak{R} $ (XL;θL);利用CNNAB网络在色彩注意的约束下将弱光图像中的深色映射为增强色,映射关系表示为$\mathfrak{R} $ (XAB;θAB). 因此,LLIE问题可以定义为式(4)、式(5)中:θL和θAB分别表示CNNL网络和CNNAB网络的参数,Γ表示训练数据集,LF表示损失函数,YL∈RH×W和YAB∈RH×W×2分别表示真实的亮度和颜色分量,P∈RH×W×2表示一组稀疏的真实值注意点.
CNNAB网络首先利用注意力映射生成器
$\mathfrak{R} $ (XAB;θM)进行预训练,通过估计注意力映射$\hat M$ 来帮助$\hat P$ 的学习. 注意力映射生成器$\mathfrak{R} $ (XAB;θM)预训练生成$\hat M$ 的过程可以定义为式(6)中:θM表示注意力映射生成器的参数,M∈RH×W×2表示真实注意力映射. 在本文方法中,注意力映射和注意点用于不同的区域,前者有助于识别与前景色相关的局部区域,而后者则指定局部区域内的稀疏点.
-
CNNL网络由特征提取、多层存储和重构3个模块组成,该网络已成功用于图像去噪和超分辨率等问题中. CNNL网络的架构:对于亮度分量输入XL,在特征提取模块中使用卷积层从嘈杂或模糊的输入图像中提取特征
式(7)中:fext为特征提取函数,B0为将发送到第一个存储块的特征. 假设将n个存储块组合起来用作特征映射,则
式(8)中:MFn表示第n个存储块函数,Bn-1和Bn分别表示第n个存储块的输入和输出. 最后,使用重构模块中的卷积层来重构残差图像. CNNL网络增强亮度分量的公式可以定义为
式(9)中:frec表示重构函数,Λ表示CNNL网络的映射函数. CNNL网络特征提取模块由一层卷积和ReLU组成,内核大小为3×3,特征映射数为32;重构模块仅有一层卷积,内核大小为3×3,特征映射数为3;存储模块单元由一个递归单元和一个门单元组成,递归单元用于建模非线性函数,本文使用了一个ResNet网络中的残差构造块作为递归单元中的递归,每个残差函数包含两个具有激活函数的卷积层. 该单元通过学习几个递归后,可以在不同接受域下生成多级表示,形成短期记忆,然后与来自先前存储块的长期记忆串联起来,作为门单元的输入. 门单元通过自适应学习过程获得持久性记忆,采用3×3卷积层来完成选通机制,从而能够学习不同存储单元的自适应权重. 短期和长期记忆能够帮助CNNL网络在存储块之内和之间实现较小和较大的亮度增强.
为了训练CNNL网络,使用L1范数损失函数将合成增强的
$\hat X$ L视为回归问题 -
CNNAB网络是本文在文献[14]基础上提出的一个网络,其中文献[14]提出的用于灰度图像着色的深层网络需要手动选择特定像素的颜色,而本文则从真实注意图映射M中随机选择一组有限的非零前景色点. CNNAB网络由两部分组成:第一部分
$\mathfrak{R} $ (XAB;θM)以XAB作为输入来生成注意力映射$\hat M$ ;第二部分采用XAB和$\hat M$ 组成一个四通道输入以增强颜色分量,以颜色注意点做引导,恢复局部感兴趣区域的色彩.由于XAB具有两个颜色通道,估计的注意力映射
$\hat M$ 也具有两个通道,因此注意力是针对每个空间坐标上的每个通道. 为了监督$\mathfrak{R} $ M的学习,本文使用色频图像来生成真实注意图映射M,从M中选择多个非零前景色点作为一组稀疏的真实注意点P. 在CNNL网络中,所有转换层具有相同数量和大小的过滤器,从而可以进行长短跳跃连接. 在CNNAB网络中不使用短跳和长跳连接,每个块的中间转换层使用具有1×1滤镜的非线性激活. -
本文提出的CNNAB网络中使用了色频图像技术,这是因为深色图像中颜色选定是通过色频图获得的. 频率图像表征了空间分布以及频率信息. 给定图像X∈RH×W×3,计算其色频图像F∈RH×W×1,其中F(x,y)等于RGB颜色X(x,y)在图像X中出现的次数. 首先,在F上应用阈值τ,通过设定不同的阈值区间来消除特定的不良频率. 本文强调对前景色的关注,同时为了消除主要的色彩频率和较小的噪点区域,将所需色频的二进制掩码定义为
根据F,生成真实颜色注意映射M(:,:,i)=XAB(:,:,i)⊗F,其中⊗表示哈达玛积,i∈[1, 2]. 为了保证M在[0, 1]范围内,对M进行线性归一化. 通常,M包含前景色. CNNAB网络从M中随机选择一组有限的非零前景色点β来引导基于颜色的注意力模型. 定义一个在所有β点坐标处都带有1的二进制掩码BP,使得∑∑BP=β. 然后根据BP,计算真实注意点P来表示前景色点的稀疏子集,P(:,:,i)=M(:,:,i)⊗BP.
在本文的注意力机制中,场景中的前景色为图像感兴趣区域的颜色. 使用M监督
$\hat M$ 的学习,然后将$\hat M$ 输入到后续网络中,指导CNNAB网络专注于增强粗糙局部区域的前景色. 同时,P通过识别关键的前景色在像素级别指导颜色增强. -
本文采用两个阶段对CNNAB网络进行训练. 第一个阶段通过L1范数损失函数训练用于预测
$\hat M$ 的注意力映射生成器第二阶段学习CNNAB网络的端到端映射,包括微调预训练的注意力图生成器. 损失函数定义为
式(13)中:α表示权重系数,LFh表示胡贝尔损失函数,该损失函数在图像着色领域具有很强的优势,可以使得弱光图像获得相对较高的色彩饱和度效果,主要用于约束
$\hat X$ AB. LFMSE表示均方误差损失函数,用于估计注意力点$\hat P$ . 下面给出LFh和LFMSE两个损失函数的数学表达式式(14)、式(15)中:δ是胡贝尔损失函数的参数. 尽管CNNAB网络可以在所有
$\hat P$ 位置输出颜色值,但仅使用BP中随机采样位置处的重构颜色来计算LFMSE.
2.1. 问题表述
2.2. CNNL网络架构
2.3. CNNAB网络架构
2.3.1. 注意映射和注意点
2.3.2. 损失函数
-
为了验证提出方法对弱光图像的增强效果,选取See-In-the-Dark(SID)和PASCAL VOC两个数据集进行测试,并将测试结果与SID[8]、基于深度照明估计网络(Deep Illumination Estimation,DIE)[9]、基于注意力与多层次特征融合网络(Attention and Multi-level Feature Fusion,AMFF)[10]、基于注意U-net网络(Attention U-Net,AUN)[11]、LightenNet网络[15]和多分支微光增强网络(Multi-Branch Low-Light Enhancement network,MBLLEN)[16]等方法进行了比较. 本文所有实验在一台配置为Intel Xeon E5-2698 (20-Core) CPU @2.20 GHz和NVIDIA Tesla V100 4×16 GB GPU的NVIDIA DGX工作站上进行.
-
本文采用See-In-the-Dark(SID)数据库[8]来训练网络,其中包含5 094个原始的弱光照图像和424个RGB真实图像,从而保证多个弱光图像对应于同一真实图像. SID数据集分为两个不同的子集,一个子集由Sony摄像机(SIDSony)捕获,另一个由Fuji摄像机(SIDFuji)捕获. 实验过程中将数据分为训练集、验证集和测试集. 由于大多数弱光增强算法使用RGB作为输入,因此将弱光图像从原始图像转换为RGB,生成的RGB图像比原始SID数据集包含的噪声少,但是弱光条件仍然很严重. PASCAL VOC分为PASCAL VOC2007和PASCAL VOC2012两个数据集:PASCAL VOC2007包含5 000个训练样本和5 000个测试样本,共有21个不同对象类别;PASCAL VOC2012包含的训练样本和测试样本分别为16 000和10 000,共有20个不同的对象类别. 为了进一步测试本文所提算法的性能,从PASCAL VOC[11]中随机选择1 000幅图像,采用基于Retinex的方法合成弱光图像[15],像素强度降低85%.
在网络训练过程中,CNNL网络和CNNAB网络设置如下:CNNL网络由特征提取模块、多层存储模块以及重构模块3个模块组成,总共包括11个卷积层,其权重衰减为0.05,批量大小为16,如文献[13]中所述,大权重衰减有助于改进未观察到的低光图像的泛. SIDSony和SIDFuji的图像块数量分别为37 300和33 100,单个图像块大小为64×64,即每个训练图像具有50个图像块. CNNAB网络在注意图生成器中使用一个前向块,总共5个卷积层,在颜色增强部分使用两个前向块,总共8个卷积层,权重衰减为0.05,批量大小为32. SIDSony和SIDFuji的图像块数量分别为186 500和165 500,单个图像块大小为32×32,即每个训练图像具有100个图像块. CNNAB网络在小图像块上训练期间,使用τl= 0.05N和τu=0.5N,其中N是图像中的像素数,网络的其他参数分别设置为a=1,b=20,d=0.5.
-
LightenNet可以很好地增强亮度和对比度,但是容易产生白色阴影,使恢复图像不能达到满意的可视化效果. DIE和MBLLEN方法会产生过度增强的效果,使图像看起来不够自然,尤其是在具有原始明亮色彩的区域中. SID,AMFF和AUN能够从黑暗图像中恢复出清晰画面,并很好地保持图像的细节和纹理,而且图像对比度和亮度也得到了不错的增强. 本文方法在色彩方面超过了上述方法,由于CNNAB网络中颜色注意机制的加入,使得该方法能够将图像恢复到更加鲜艳、更加丰富的程度,接近真实图像.
-
为了进一步测试算法的增强效果,采用峰值信噪比(PSNR)、结构相似性指数(SSIM)、亮度顺序误差(LOE)和色彩丰富度(CCI)4个指标进行评价.
PSNR为复原图像最大像素与噪声的比值,即
式(16)中MSE表示均方误差,fmax和fmin分别表示去噪图像的最大像素和最小像素. PSNR越大,说明去噪图像失真越小,图像的去噪效果越好.
基于感知模型的归一化度量SSIM定义为
式(17)中:l(x,y),c(x,y),s(x,y)分别表示参考图像x和还原图像y的亮度、对比度和结构比较. SSIM从亮度(均值)、对比度(方差)和结构3个层次比较图像失真,SSIM在[-1, 1]区间范围内取值,其值越接近1,说明两者结构相似性越好;相反,相似性越差.
亮度顺序误差LOE通常用于度量真实的弱光图像. 由于在弱光和增强图像之间每个像素与其他所有像素的强度顺序相似,因此LOE值越小,意味着保持更好的亮度顺序. LOE度量定义为
式(18)中:m表示像素数量,RD(x)表示输入图像与复原图像之间的相对亮度阶差.
色彩丰富度CCI反映的是色彩的鲜艳生动程度,其中色彩度代表图像中颜色的强度和颜色分类. 其值越大,说明恢复图像的色彩度越丰富. CCI定义为
式(19)中:μ和σ是C1和C2的均值和标准差,C1=R-G,C2=0.5×(R-G)-B.
表 1给出了α在0~1.4之间微调的测试结果,该实验采用的数据集为SIDSony. 从表 1中可以看出,当α=1.0,即式(13)中两项权重相等时,CNNAB网络的峰值信噪比达到28.56. 当α>1,即注意点对训练CNNAB网络的影响大于胡贝尔损失时,PSNR显著下降;另一方面,当α=0.0,即CNNAB网络在没有注意机制的情况下训练时,PSNR下降到26.31.
表 2给出了不同算法在PSNR和SSIM两个评估指标的测试结果. 从表 2中可以看出,除了PASCAL VOC的SSIM之外,本文提出方法在所有数据集上的PSNR和SSIM均达到最佳结果,说明相较于其他方法,本文方法复原图像的失真最小,细节更加清晰.
表 3给出了不同算法在PASCAL VOC数据集上的LOE,CCI指标测试结果. 从表 3中可以看出,所有这些方法都倾向于在不同的性能水平上改善弱光图像的亮度和色彩,本文方法在所有数据集上的LOE和CCI指标均达到最优值,从而证明其有效性和优越性. 本文方法通过在卷积神经网络中引入颜色注意机制,完整地还原了场景的颜色,且在保持明暗度顺序的同时有效增强了弱光图像.
3.1. 数据集和实验设置
3.2. 定性评价
3.3. 定量评价
-
本文提出了一种基于颜色注意机制的弱光图像增强算法,用于解决弱光图像增强过程中存在的颜色和细节丢失问题. 实验结果表明,本文方法比其他增强方法在图像亮度、纹理细节和颜色方面均取得了更好的效果,优势更加突出.