变白网站制作源码,电商系统源码公司哪家好,数据库如何存储wordpress,广州百度快速优化排名多帧高动态范围成像#xff08;High Dynamic Range Imaging, HDRI/HDR#xff09;旨在通过合并多幅不同曝光程度下的低动态范围图像#xff0c;生成具有更宽动态范围和更逼真细节的图像。如果这些低动态范围图像完全对齐#xff0c;则可以很好地融合为HDR图像#xff0c;但…多帧高动态范围成像High Dynamic Range Imaging, HDRI/HDR旨在通过合并多幅不同曝光程度下的低动态范围图像生成具有更宽动态范围和更逼真细节的图像。如果这些低动态范围图像完全对齐则可以很好地融合为HDR图像但是实际拍摄到的图像容易受到相机、物体运动的干扰三张低动态范围图像往往不能很好地得到对齐直接对三图像做融合的话所生成的图像容易产生伪影、重影例如下图所示
为了解决这一现象传统的算法通常分为两类在图像融合前对齐align图像或者拒绝reject不对齐的像素来去除重影但精确地对齐图像或者精确地定位不对齐的像素往往难以实现所生成的HDR图像效果并不好因此现在常常以数据驱动的方法来训练CNN利用CNN来实现图像的融合。
基于CNN的去重影方法主要分为两类①利用单应性或光流法对LDR图像进行预对齐②设计端到端的隐式对齐模块或者新颖的学习策略来处理重影。但是由于卷积局部性的限制模型难以建立远程依赖需要堆叠较深的卷积层来实现提高感受野的目的如果图中物体的运动范围过大则先前基于CNN的方法仍容易产生重影同时由于在整幅图像中共享卷积核因此卷积是内容无关的运算content-independment这一特性导致卷积运算忽略了不同图像区域的长距离强度变化也就是卷积运算会平等地对待图像中的所有数据。引入注意力机制可以解决这一问题
对于模型的长距离建模能力一个很好地策略就是利用transformer结构例如ViT算法。然而本文作者发现transformer结构并不能直接应用于HDR任务中主要有两个原因①transformer缺乏CNN中归纳偏差的能力inductive biases因此在数据量不足的情况下训练时泛化能力较差模型性能不高②帧内和帧间相邻像素之间的关系也对恢复图像的局部细节至关重要而纯transformer结构难以提取局部上下文之前的关系。
注在HDR任务中收集大量真实标记的样本成本过高因此数据集往往有限。
对此本文作者提出了一种上下文感知的ViTContext-Aware Vision Transformer, CA-ViT通过双分支架构来同时捕获全局和局部的依赖关系也就是同时实现全局和局部的建模。对于全局分支作者使用基于窗口的多头transformer编码器来捕远程上下文关系即Swin transformer对于局部分支作者设计了局部上下文提取器local context extractor, LCE通过卷积块来提取局部特征映射并且通过通道注意力机制在多个帧特征之间选择有用的特征抑制无用的特征因此CA-ViT结构可以使全局和局部以互补的方式发挥作用。基于CA-ViT结构作者提出了用于HDR成像的transformer结构HDR-Transformer。
对于HDR-Transformer主要包括两个模块特征提取网络和HDR恢复网络特征提取网络利用卷积运算和空间注意力模块来提取浅层特征并且进行粗融合有助于稳定transformer的训练和抑制图像中不对齐的像素。HDR重建模块以CA-ViT为基本组件从全局和局部两个角度对图像建模有助于重建高质量的HDR图像同时无需堆叠非常深的卷积块。
在本文中作者提出了一种双分支上下文感知Transformer通过加入局部特征提取器即引入卷积操作来克服传统ViT在局部建模上的不足扩展了标准的ViT模块可以实现全局和局部上下文的同时建模。此外基于所设计的CA-ViT模块作者提出了用于HDR成像的HDR-Transformer网络通过结合Transformer和CNN的优点来有效地缓解HDR成像过程中容易产生重影的问题。