怎么夸客户网站做的好,用模板做网站的方法,app和网站开发哪个难,企业免费建网站文章目录 摘要引言算法架构结构损失函数 实验数据集评估SOTA比较模型是否过拟合到修复区域泛化到真实图片消融实验 讨论及结论限制 参考文献 摘要
作者调研自动放置目标到背景进行图像合成的问题。提供背景图、分割的目标#xff0c;训练模型预测合理放置信息#xff08;位置… 文章目录 摘要引言算法架构结构损失函数 实验数据集评估SOTA比较模型是否过拟合到修复区域泛化到真实图片消融实验 讨论及结论限制 参考文献 摘要
作者调研自动放置目标到背景进行图像合成的问题。提供背景图、分割的目标训练模型预测合理放置信息位置及尺寸。当前工作主要是生成候选框或者使用滑窗搜索但是不能在背景图中建模局部信息。本文通过transformer学习目标特征与所有局部背景特征之间相关性。稀疏对比损失用于进一步训练模型。通过网络前向生成3D heatmap表明所有合理位置/尺度组合。训练时可以使用具体标注也可使用现有inpaint模型已超过SOTA方法。用户研究表明训练的模型可泛化到真实图片。
引言 如图1现有方法【26】直接预测多个变换或边界框表明提供目标的位置和尺度但仅推荐top不提供其他可能位置及尺度。【29】使用检索模型评估给定位置的合理性并以滑动窗口的方式评估位置和尺度的网格这导致推理速度慢。 本文作者提出的TopNet将目标放置转化为稠密点预测问题通过一次网络前向生成包含位置、尺度的稠密网格评估。之前方法仅在全局层级结合前景及背景而TopNet学习全局前景特征与局部背景特征之间相关性可高效评估所有可能放置位置。 作者训练TopNet时仅提供一个边界框因此使用稀疏对比损失真值位置/尺寸有一个相对高的得分同时最小化其他组合及比真值得分高的组合通过在预测的3D热度图上寻找局部最大值生成候选边界框位置。 本文贡献 1、一种新颖的基于transformer的结构建模目标图与来自背景图的局部信息之间相关关系 2、稀疏对比损失训练稠密预测网络 3、在inpaint数据集和标定数据集充分实验验证达到SOTA
算法
架构
提供一张背景 I b I_b Ib及前景 I o I_o Io模型预测的3D热度图 H H H c 16 c16 c16表示尺度值s0.15-0.9间隔0.05每个空间位置与放置边界框的中心有关。 推理时首先对 H H H归一化寻找top-1或top-k候选框。
结构
如图2使用两个编码器学习背景和目标特征为确定特定位置的目标尺寸是否合适背景图中局部信息可提供细节信息因此保留来自背景encoder中最后一个卷积层或transformer层的局部特征/token对于前景相对简单保留全局特征。 使用多层transformer学习目标全局特征与背景局部特征之间相关性class token替换为目标全局特征最后一层所有patch token送入上采样decoder对于transformer降采样后的特征进行concat及reshape而后经过4个卷积层进行上采样。
损失函数
通过mask原始目标后进行修复生成纯背景图从而构造训练集。损失函数第一项Lcon如式1 真值处得分最大其中对于真值附近的点M为0其余位置为0.1损失函数第二项Lrange如式2 鼓励H的最低分趋近于0防止谋学位置预测得分高。整体损失函数LLconLrange
实验
数据集 Pixabay使用LAMA进行目标擦除对于图中少于3个目标的图片额外增加一个mask如图4防止模型过拟合到修复的物体。训练集367, 384对测试集41, 166 OPA训练集21, 350测试集3, 566。
评估
Top-k IOUtop k个候选框与真值框iou的最大值 Normalized Score热度图归一化后在真值处的得分应该相对高因此计算NS均值以及NS高于一定阈值的百分比。
SOTA比较
Regression表示直接预测真值框 †Retrieval表示通过检索寻找合理位置 Classifier表示通过分类器预测合成图是否合理为检索方案的进一步扩充 PlaceNet表示通过对抗训练预测框是否合理。 表1展示top-5 IOU评估结果该方法远超过现有方法同时速度也比较快 表2、表3表示对应真值位置NS结果及iou结果
模型是否过拟合到修复区域
图5表明模型未过拟合到LAMA修复区域。
泛化到真实图片
图6展示几个有挑战性目标放入背景示例本文所提方法效果更出色 表4展示本文方法生成图片满意度更高
消融实验
表5展示稀疏对比损失性能提升明显 表6表示Local Atten效果最佳。 Global Only表示concat全局背景及前景特征 Local Concat表示concat全局目标特征及每个局部背景特征 Local Atten表示通过transformer结合全局前景特征及局部背景特征
图7为可视化展示前景token与局部背景token之间attention16个热度图展示不同尺度目标推荐不同位置
讨论及结论
TopNet通过transformer结合目标特征及局部背景特征预测目标尺度及放置位置超越现有SOTA方法并且在真实图片具有泛化性。
限制
未考虑光照、阴影、遮挡等信息依赖于修复网络构建数据集与真实图存gap
参考文献
[26] Lingzhi Zhang, Tarmily Wen, Jie Min, Jiancong Wang, David Han, and Jianbo Shi. Learning object placement by in- painting for compositional data augmentation. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow,UK, August 23–28, 2020, Proceedings, Part XIII 16, pages 566–581. Springer, 2020. 1, 2, 6, 7 [29] Sijie Zhu, Zhe Lin, Scott Cohen, Jason Kuen, Zhifei Zhang, and Chen Chen. Gala: Toward geometry-and- lighting-aware object search for compositing. arXiv preprint arXiv:2204.00125, 2022. 1, 2, 5, 6, 7