外贸建站模板价格,网站内链结构是什么意思,天元建设集团有限公司鹿腾,职教集团网站建设2023 CCF 大数据与计算智能大赛
基于TPU平台实现超分辨率重建模型部署
基于FSRCNN的TPU平台超分辨率模型部署方案
WELL
刘渝
人工智能 研一
西安交通大学
中国-西安
1461003622qq.com
史政立
网络空间安全 研一
西安交通大学
中国-西安
1170774291qq.com
崔琳、张…2023 CCF 大数据与计算智能大赛
基于TPU平台实现超分辨率重建模型部署
基于FSRCNN的TPU平台超分辨率模型部署方案
WELL
刘渝
人工智能 研一
西安交通大学
中国-西安
1461003622qq.com
史政立
网络空间安全 研一
西安交通大学
中国-西安
1170774291qq.com
崔琳、张长昊、郭金伟
软件工程等 研一
北京大学软微学院
中国-北京
g1335129739163.com
团队简介
刘渝西安交通大学本硕目前研一研究兴趣是机器人多模态感知
史政立西安交通大学本硕网络空间安全专业。曾获得首届人工智能安全大赛优秀奖
崔琳本科毕业于西安交通大学目前北京大学软件与微电子学院研一在读主要进行多模态和dml方向的研究以及学习
张长昊研究生就读于北大软微软件工程专业研究兴趣是时序数据预测
郭金伟本科毕业于辽宁工程技术大学在校期间获得数学竞赛国家一等奖辽宁省acm竞赛银牌硕士就读于北京大学软件与微电子学院录取方向为人工智能
摘要
视觉效果逼真的Stable Diffusion在生成高分辨率图像时效率较低在TPU平台上提高Stable Diffusion模型生成高分辨率图像的效率可以依靠超分辨率模型作为上采样器。
赛题的目标是为在边缘计算设备上提高高分辨率图像生成效率提供有效的技术方案降低资源和内存需求同时保证图像质量。
针对本赛题我们经过对比分析采用了FSRCNN作为超分辨率模型并设计了集中式超分辨率Centralized Super Resolution的方法与插值组合到一起用于提高图像分辨率。此外我们将前后处理集成到模型中利用TPU的算力加速前后处理的速度以减少处理时间。
实验结果表明我们的方法在牺牲一部分图像质量评估指标NIQE的情况下显著减少了处理时间在赛题给定的评价指标上具有较高的得分。我们还讨论了性能改进的可能性包括考虑使用Bmcv硬件加速部分操作。
关键词
图像超分辨率TPU模型部署
1 赛题数据分析
赛题的任务是针对给定的数据在TPU上进行超分辨率处理以期实现推理速度与图像质量之间的最佳平衡。
我们首先从大小和内容两个方面分析了数据的基本构成从尺寸上说最大尺寸2039*2039最小尺寸183*510。
根据最大尺寸和最小尺寸对图像分组组1长宽均小于500组2去除组1后长宽均小于1000组3组2中长或宽为510组4去除组1、2后长宽均小于1500组5去除组1、2、4后的数量。根据分组对数据进行统计得到下表
组别12345数量14944009213
可以看出小尺寸图像占比较大大尺寸图像占比较少同时长或宽为510的图像占比很大。
同时我们采样查看了数据图像的内容图像确实包含各个场景既包含外景也包含人像还有虚拟二次元人物内容比较丰富。我们认为赛题使用的是网络搜集的图像可以避免直接使用Diffusion生成的图像与实际情况可能的偏差从而避免可能对NIQE这一自然评价指标有所影响。
2 方案介绍
本节将介绍我们采用的方案的具体内容 我们针对比赛任务主要进行了三方面设计超分辨率模型选取、集中式超分辨率处理CSR设计和前后处理集成。
2.1 超分模型选取
在经过多次比较实验之后我们最终选用FSRCNN[1]作为超分模型使用。以下说明其设计结构及主要思想
1、特征提取层使用少量的卷积层来提取图像特征。我们使用的卷积核。
2、收缩层减少特征维度以降低后续处理的计算复杂度。我们使用的卷积核对特征提取层的高维数据降维。
3、映射层一系列的卷积层用于学习输入到输出低分辨率到高分辨率的映射关系。我们使用 的卷积核进行非线性映射。
4、扩张层增加特征维度准备进行分辨率提升。我们采用 的小卷积核恢复图像至收缩前的维度。
5、放大层对图像进行分辨率提升。我们采用的卷积核放大图像尺寸。
总结结构如下图所示
图1FSRCNN结构
2.2 超分实施策略
官方代码通过将原图分解成多个小块进行超分辨率处理然后使用权重融合来消融边界这是比较优雅的处理。但是根据我们对评价公式的分析运算速度的提高即运算时间的减少带来的收益高于图像质量带来的收益。
我们了解JPEG压缩图像是通过丢弃即使丢失也不会显著影响图像视觉质量的信息从而在保持相对较高视觉质量的同时能够以更小的文件大小存储和传输。受此启发对于增大图像分辨率的任务直接通过插值算法放大的质量通常比使用超分辨率模型放大的效果更差因此我们可以仅使用超分辨率模型放大图像中对视觉效果影响更大的一部分从而在时间和效果之间达到更好的平衡。
由于NIQE通过分析图像的统计特性评估其视觉质量从而更接近于人眼对图像的感知评价另一方面测试使用的图像种类也非常丰富。因此我们只能寻找一个普适的注意力集中的区域。
在计算机视觉和图像处理领域有一些研究关注人眼视觉系统在观察图像时对中心区域的更高关注度[2]。这种现象通常被称为中心偏向center bias。受此启发我们决定采用集中式超分辨率处理Centralized Super Resolution (CSR) 的策略。我们针对更高关注度的中心区域采用模型处理而其他较低关注度的区域采用插值处理这一方案首先符合人眼认知而下一节我们将重点介绍其统计原理。
2.3 统计特性分析
为了进一步说明提出的CSR框架的有效性我们对CSR、ESREdge Super Resolution和GSRGlobal Super Resolution统计特性分析深入探究不同超分辨率策略对图像的影响并为它们的性能进行客观评估NIQE提供有力依据。
频率统计差异幅度谱 如图2所示相较于ESR CSR和GSR的的幅度谱变化更加自然趋于一致ESR在高频阶段能量增加剧烈。
图2频谱特性曲线
亮度统计差异 GSR亮度特性与CSR和ESR均不同。GSR图像缺乏亮度饱和区域并且整个直方图分布较为不均匀。ESR和CSR图像则出现饱和的像素值相对于ESRCSR亮度分布更加均匀一点。
图3亮度直方图
局部亮度、对比度以及频率的t检验差异 t检验t-test旨在利用两组样本数据判断其均值是否存在显著差异。在这里我们利用t检验的p值进行比较。p值越小代表两组数据存在显著性差异。我们比较GSR与CSR和GSR与ESR的t检验p值相较后者GSR与CSR的p值较大这也就意味着从统计平均的意义而言GSR与CSR之间的统计特性更加接近。从像素域到频域GSR和CSR共享统计特征。
P-value亮度对比度频率GSRCSR0.4870.5810.00100GSRESR0.4850.5580.00003
三种统计特性的分析旨在证明CSR这种启发式的超分策略与一般的全局超分策略GSR之间存在更强的统计一致性。而NIQE指标正是建立在这种统计特性基础之上因此CSR相较于其他超分策略其NIQE值会更接近GSR。
2.3 前后处理集成
一方面TPU的算力比较强大另一方面我们采用了中央超分的设计因此我们观察到在处理图像时TPU推理时间相对较短而前后处理时间则占据了整体处理时间的较大部分。
通过查阅手册我们了解到TPU配套软件提供的bmcv可以通过TPU的加速来提高前后处理的速度但是我们认为这样仍然不如直接把计算以算子形式直接放到TPU上运行的速度快。
考虑到本任务的前后处理相对简单使用的均为TPU软件支持的算子同时前后处理方式固定没有分支等结构我们希望能够把数据的前后处理都集成到模型中直接使用TPU进行处理。
具体而言我们集成的包括如下操作输入图像0-255到0-1的转换、BGR到yCbCr和yCbCr到BGR的通道转换、输入TPU图像的插值放大其中输入TPU的图像也要插值放大的原因是超分辨率模型仅对y通道进行处理其余通道需要插值获得。
2.4 流程总结
最终总结流程图如下
图4方案流程图
3 效果对比说明
3.1 模型对比
我们采用官方提供的推理流程代码进行实验仅对输入输出的不同进行少量处理测试了ESRGAN、SRCNN和FSRCNN在官方代码下的运行效果如下表所示
项目ESRGANSRCNNFSRCNN时间/s5.18332.37281.8364NIQE4.40125.88644.7701
FSRCNN以少量的NIQE的损失大大减少了处理时间显著提高了运行效率。
3.2 超分策略对比
修改代码逻辑为CSR的形式通道域转换等前后处理操作在CPU上进行模型推理使用TPU进行结果如下表所示
项目GSRCSR时间/s1.83640.5896NIQE4.77015.9271
采用CSR处理之后模型以一定的NIQE损失换来了巨大的推理时间改善我们的结果证实了中央超分不仅在视觉效果上符合人类的观察习惯而且在客观的图像质量评估标准上也显示出优越性。
3.3 前后处理集成对比
未集成表示前后处理均通过Opencv进行集成表示将所有可以转移到TPU处理的步骤都通过TPU支持的算子进行结果如下表所示
项目未集成集成时间/s0.51870.0141NIQE6.04816.3400
TPU的加速显著减少了前后处理的时间使结果又有一次比较大的提升。
4 性能改进讨论
4.1 Bmcv加速
虽然我们把大部分前后处理操作转移到TPU进行但是仍有一部分无法转移这部分操作可以使用官方库Bmcv通过硬件加速。
我们详细阅读文档使用了Bmcv对代码进行了改写但是23.5.1版本的Bmcv不支持cubic插值这对我们方案的效果影响比较大因此最终放弃了Bmcv加速的方案。
致谢
感谢史政立和刘渝同学的共同辛苦努力感谢崔琳、张长昊、郭金伟同学的共同积极参与。
参考
[1] Dong C, Loy C C, Tang X. Accelerating the super-resolution convolutional neural network[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part II 14. Springer International Publishing, 2016: 391-407.
[2] Tseng P H, Carmi R, Cameron I G M, et al. Quantifying center bias of observers in free viewing of dynamic natural scenes[J]. Journal of vision, 2009, 9(7): 4-4.