html5网站源码php,长沙网销公司,全球速卖通买家app,代理记账公司排名前十强微光图像增强#xff08;LLIE#xff09;研究如何提高照明并生成正常光图像。现有的大多数方法都是通过全局和统一的方式来改善低光图像#xff0c;而不考虑不同区域的语义信息。如果没有语义先验#xff0c;网络可能很容易偏离区域的原始颜色。为了解决这个问题#xff0…微光图像增强LLIE研究如何提高照明并生成正常光图像。现有的大多数方法都是通过全局和统一的方式来改善低光图像而不考虑不同区域的语义信息。如果没有语义先验网络可能很容易偏离区域的原始颜色。为了解决这个问题我们提出了一种新的语义感知知识引导框架SKF该框架可以帮助弱光增强模型学习封装在语义分割模型中的丰富多样的先验。我们专注于从三个关键方面整合语义知识一个语义感知嵌入模块它在特征表示空间中明智地集成了语义先验一个语义引导的颜色直方图损失它保持了各种实例的颜色一致性以及一个语义导导的对抗性损失它通过语义先验产生更自然的纹理。我们的SKF作为LLIE任务的通用框架具有吸引力。大量实验表明配备SKF的模型在多个数据集上显著优于基线我们的SKF很好地推广到不同的模型和场景。
The code is available at langmanbusi/Semantic-Aware-Low-Light-Image-Enhancement: Semantic-Aware LLIE. CVPR 2023 (github.com) 1. Introduction
在现实世界中由于不可避免的环境或技术限制如光照不足和曝光时间有限低光成像相当普遍。低光图像不仅对人类视觉感知有很差的可见度而且对于后续的多媒体计算和针对高质量图像设计的视觉任务也不适用。因此提出了低光图像增强LLIE的概念旨在揭示低光图像中隐藏的细节避免在后续视觉任务中性能下降的问题。主流的传统LLIE方法包括基于直方图均衡化的方法[2]和基于Retinex模型的方法[18]。 最近许多基于深度学习的低光图像增强LLIE方法被提出例如端到端的框架[5,7,34,45,46,48]和基于Retinex的框架[29, 41, 43, 44, 49, 53, 54]。由于它们在建模低光和高质量图像之间的映射能力深度LLIE方法通常比传统方法取得更好的结果。然而现有方法通常在全局和均匀地改善低光图像而不考虑不同区域的语义信息这对于图像增强至关重要。如图1(a)所示缺乏利用语义先验的网络可能会轻易偏离区域的原始色调[22]。此外研究表明将语义先验纳入低光增强是至关重要的。例如Fan等人[8]利用语义地图作为先验并将其纳入特征表示空间从而提升图像质量。而不是依赖于优化中间特征Zheng等人[58]采用新颖的损失函数来保证增强图像的语义一致性。这些方法成功地将语义先验与LLIE任务结合起来展示了语义约束和引导的优越性。然而它们的方法未能充分利用语义分割网络可以提供的知识限制了通过语义先验获得的性能提升。此外分割和增强之间的交互是针对特定方法设计的限制了将语义引导纳入LLIE任务的可能性。因此我们想要探讨两个问题1.我们如何获取各种可用的语义知识2.语义知识如何在LLIE任务中对图像质量改善做出贡献
我们试图回答第一个问题。首先引入了一个在大规模数据集上预先训练的语义分割网络作为语义知识库。SKB可以提供更丰富、更多样的语义先验以提高增强网络的能力。其次根据先前的工作[81958]SKB提供的可用先验主要由中间特征和语义图组成。一旦训练了LLIE模型SKB就会产生上述语义先验并指导增强过程。先验不仅可以通过使用亲和矩阵、空间特征变换[40]和注意力机制等技术来细化图像特征还可以通过将区域信息明确地纳入LLIE任务来指导目标函数的设计[26]。
然后我们试着回答第二个问题。基于上述答案我们设计了一系列新颖的方法将语义知识集成到LLIE任务中形成了一个新颖的语义感知知识引导框架SKF。首先我们使用在PASCAL上下文数据集[35]上预训练的高分辨率网络[38]HRNet作为前面提到的SKB。为了利用中间特征我们开发了一个语义感知嵌入SE模块。它计算参考特征和目标特征之间的相似性并采用异构表示之间的跨模态交互。因此我们将图像特征的语义感知量化为一种注意力形式并在增强网络中嵌入语义一致性。
其次一些方法[2055]提出使用颜色直方图优化图像增强以保持图像的颜色一致性而不是简单地全局增强亮度。另一方面颜色直方图仍然是一种全局统计特征不能保证局部一致性。因此我们提出了一种语义引导的颜色直方图SCH损失来细化颜色一致性。在这里我们打算利用从场景语义导出的局部几何信息和从内容导出的全局颜色信息。除了保证增强图像的原始颜色外它还可以将空间信息添加到颜色直方图中执行更细致的颜色恢复。
第三现有的损失函数与人类感知不太一致无法捕捉图像的内在信号结构导致不愉快的视觉结果。为了提高视觉质量EnlightenGAN[16]采用全局和局部图像内容一致性并随机选择局部补丁。然而鉴别器不知道哪里的区域可能是“假的”。因此我们提出了一种语义引导的对抗性SA损失。具体来说通过使用分割图来确定伪区域提高了鉴别器的能力可以进一步提高图像质量。
我们工作的主要贡献如下
•我们提出了一个语义感知知识引导框架SKF通过共同保持颜色一致性和提高图像质量来提高现有方法的性能。
•我们提出了三种关键技术来充分利用语义知识库SKB提供的语义先验语义感知嵌入SE模块、语义引导的颜色直方图SCH丢失和语义引导的对抗性SA丢失。
•我们在LOL/LOL-v2数据集和未配对数据集上进行了实验。实验结果表明我们的SKF大大提高了性能验证了其在解决LLIE任务方面的有效性。
2. Related Work 2.1. Low-light Image Enhancement
传统方法。低光增强的传统方法包括基于直方图均衡的方法[2]和基于Retinex模型的方法[18]。前者通过扩展动态范围来改善微光图像。后者将低光图像分解为反射图和照明图并且反射分量被视为增强图像。这种基于模型的方法需要明确的先验来很好地拟合数据但为各种场景设计合适的先验是困难的[44]。
基于学习的方法。最近基于深度学习的方法显示出有希望的结果[15294344535456]。我们可以进一步将现有的设计分为基于Retinex的方法和端到端的方法。基于Retinex的方法使用深度网络来分解和增强图像。Wei等人提出了一种基于Retinex的两阶段方法称为Retinex-Net[43]。受Retinex Net的启发张等人提出了两种改进的方法称为KinD[54]和KinD[53]。最近Wu等人[44]提出了一种新的基于Retinex的深度展开网络以进一步整合基于模型和基于学习的方法的优势。
与基于Retinex的方法相比端到端方法直接学习增强的结果[5-727323437414546515759]。Lore等人[30]首次尝试提出了一种名为LowLight NetLLNet的深度自动编码器。稍后提出了各种端到端的方法。提出了基于物理的概念例如拉普拉斯金字塔[27]、局部参数滤波器[34]、拉格朗日乘法器[57]、德拜尔滤波器[5]、归一化流[41]和小波变换[7]以提高模型的可解释性并产生视觉上令人满意的结果。在[161748]中引入了对抗性学习来捕捉视觉特性。在[11]中创造性地将光增强公式化为使用零样本学习的图像特定曲线估计任务。在[204755]中使用3D查找表和颜色直方图来保持颜色一致性。然而现有的设计侧重于优化增强过程而忽略了不同区域的语义信息。相反我们设计了一个具有三个关键技术的SKF以探索语义先验的潜力从而产生视觉上令人愉悦的增强结果
2.2. Semantic-Guided Methods
最近语义引导方法证明了语义先验的可靠性。这些方法可分为两类损失级语义引导方法和特征级语义引导方式。
Loss-level semantic-guided methods 为了利用语义先验一些工作侧重于利用语义感知损失作为原始视觉任务的额外目标函数。在图像去噪[28]、图像超分辨率[1]、微光图像增强[58]中研究人员直接利用语义分割损失作为额外的约束来指导训练过程。梁等人[26]通过使用语义亮度一致性损失来更好地保持图像的细节。
Feature-level semantic-guided methods. 与损失级语义引导方法相比特征级语义引导法侧重于从语义分割网络中提取中间特征并在特征表示空间中引入语义先验与图像特征相结合。在图像恢复[23]、图像去噪[24]、图像超分辨率[40]、微光图像增强[8]、深度估计[1019]方面也进行了类似的工作。
现有的语义引导方法由于语义先验和原始任务之间的交互不足而受到限制。因此我们提出了一个语义感知框架来充分利用损失级和特征级的语义信息包括两个语义引导的损失和一个语义认知嵌入模块。具体而言与LLIE任务[82658]中的语义引导方法相比我们的SKF作为一个通用框架具有吸引力。
3. Method 3.1. Motivation and Overview
照明增强是通过调整照明、消除噪声和恢复丢失的细节使曝光不足的图像看起来更好的过程。语义先验可以为提高增强性能提供丰富的信息。具体来说语义先验可以帮助将现有的LLIE方法重新表述为区域感知增强框架。特别是新模型将以简单的方式模糊平滑区域上的噪声比如天空而要注意细节丰富的区域比如室内场景。此外结合语义先验可以很好地保持增强图像的颜色一致性。缺乏语义先验的网络很容易偏离区域的原始色调[22]。然而现有的微光增强方法忽略了语义信息的重要性因此能力有限。
在本文中我们提出了一种新的SKF联合优化图像特征保持区域颜色一致性提高图像质量。如图2所示语义先验由SKB提供并通过三个关键组件集成到LLIE任务中SE模块、SCH丢失和SA丢失。 3.2. Semantic-Aware Embedding Module
当借助语义先验来细化图像特征时另一个挑战应该特别考虑的是两个来源之间的差异。为了缓解这个问题我们提出了SE模块来细化图像特征图如图所示。3。SE模块就像分割网和增强网之间的桥梁见图2在两个异构任务之间建立连接。 在我们的框架中由于其卓越的性能我们选择HRNet[38]作为SKB并进行了一些特定任务的修改。除了语义图我们还利用表示头之前的输出特征作为多尺度语义先验。为了进一步说明图2中显示了三个SE模块。因此我们采用三个空间分辨率H/24−bW/24−b的三个语义/图像特征Fb s/Fb ib012其中H和W是输入图像的高度和宽度。SE模块在Fb s和Fb i之间执行逐像素交互并给出下面提供了学习过程的细节。 3.3. Semantic-Guided Color Histogram Loss
颜色直方图承载了关键的底层图像统计信息对于学习颜色表示是有益的。DCC-Net[55]使用具有亲和矩阵的PCE模块来匹配特征级别的颜色直方图和内容从而保持增强图像的颜色一致性。然而颜色直方图描述了全局统计信息消除了各种实例之间颜色特征的差异。因此我们提出了一种直观的方法来实现局部颜色调整即语义引导的颜色直方图SCH损失如图所示。2。它专注于调整每个实例的颜色直方图从而保留更详细的颜色信息。
首先使用语义图将增强结果划分为具有不同实例标签的图像块。每个块都包括一个具有相同标签的实例。因此生成补丁的过程定义如下 3.4. Semantic-Guided Adversarial Loss
全局和局部鉴别器用于鼓励在图像修复任务中获得更逼真的结果[1425]。EnlightenGAN[16]也采用了这一想法但局部补丁是随机选择的而不是关注假区域。因此我们引入语义信息来引导鉴别器关注有趣的区域。为了实现这一点我们通过第3.3节中提到的分割图Iseg和图像块P′分别进一步细化全局和局部对抗性损失函数。最后我们提出了语义引导对抗性SA损失。
对于局部对抗性损失我们首先使用精化的补丁组P′作为输出Iout的候选假补丁。然后我们比较了图像块的判别结果在P’中最差的补丁最有可能是“假的”可以选择它来更新鉴别器和生成器的参数。 4. Experiments 4.1. Experimental Settings
数据集。我们在来自不同场景的几个数据集上评估了所提出的框架包括LOL[43]、LOL-v2[49]、MEF[31]、LIME[12]、NPE[39]和DICM[21]。LOL数据集[43]是一个真实捕获的数据集包括485对用于训练的低/正常光图像对和15对用于测试的图像对。LOL-v2数据集[49]是LOL-v2的真实部分它比LOL更大、更多样包括689对用于训练的低/正常光对和100对用于测试的光对。MEF17幅、LIME10幅、NPE85幅和DICM64幅是真实捕获的数据集包括未配对的图像。
指标。为了评估使用和不使用SKF的不同LLIE方法的性能我们使用了全参考和非参考图像质量评估指标。对于LOL/LOL-v2数据集峰值信噪比PSNR、结构相似性SSIM[42]、学习感知图像补丁相似性LPIPS[52]、自然图像质量评估员。对于没有配对数据的MEF、LIME、NPE和DICM数据集由于没有基本事实因此仅使用NIQE。
比较方法。为了验证我们设计的有效性我们将我们的方法与LLIE的丰富SOTA方法进行了比较包括LIME[13]、RetinexNet[43]、KinD[54]、DRBN[48]、KinD[5]、Zero DCE[11]、ISSR[8]、EnlightGAN[16]、MIRNet[51]、HWMNet[7]、SNR LLIE Net[46]、LLFlow[41]。为了忠实地证明我们的方法的优越性我们合理地选择了几种方法作为基线网络。具体来说既选择了最具代表性的方法包括RetinexNet、KinD和KinD也选择了最新的三种方法包括HWMNet、SNR-LLIE-Net和LLFlow。因此我们的方法表示为RetinexNetSKF、KinD SKF、DRBN-SKF、KinD-SKF、HWMNetSKF、SNR LLIE Net SKF、LLFlow-S-SKF和LLFlow LSKF分别为LLFlow的小版本和大版本。
实施细节。我们在NVIDIA 3090 GPU和NVIDIA A100 GPU上进行了实验这两个GPU基于相同训练设置的基线网络的发布代码。具体来说只有Retinex SKF、KinD SKF和KinD-SKF的最后一个子网使用SCH损失和SA损失进行训练而其他子网使用原始损失函数进行训练。此外我们不将SA损失应用于LLFlow因为在训练阶段没有增强的输出。此外SE模块合理地位于所有基线网络的解码器中
4.2. Quantitative Evaluation
LOL和LOL-v2数据集的定量结果。评价结果如表1所示。我们可以观察到与每种基线方法相比我们的SKF实现了一致且显著的性能增益。具体而言我们的SKF在LOL/LOL-v2数据集上分别提供了1.750 dB/1.611 dB的平均改进这是通过引入抑制噪声和伪影以及保持颜色一致性的能力来实现的。值得注意的是我们的LLFlow-L-SKF在LOL/LOL-v2数据集上获得了26.798 dB/28.451 dB的PSNR值建立了一个新的SOTA。此外SSIM值也实现了类似的性能。我们的SKF在LOL/LOL-v2数据集上产生了更好的SSIM值平均值为0.041/0.037这表明我们的SKF有助于基线方法恢复亮度和对比度并保留详细的结构信息。此外我们的SKF提供的LPIPS和NIQE的实质性增益合理地表明通过从我们的设计中引入语义先验人类的直觉更加匹配。
MEF、LIME、NPE和DICM数据集的定量结果。MEF、LIME、NPE和DICM数据集的评估结果如表2所示。一般来说除了DRBN-SKF和HWMNet SKF的三种较差情况外每种SKF方法在所有六个数据集上都获得了比基线更好的NIQE结果。RetinexNet SKF在MEF数据集上的NIQE为3.632表现最好而KinD-SKF在其他五个数据集上表现最好。总体而言值得注意的是我们的SKF所有方法和数据集的NIQE平均增益为0.519。更好的NIQE表明使用我们的SKF的方法可以生成具有更自然纹理的图像并且在恢复弱光图像时变得更有效。