当前位置：首页 > news >正文

成都定制网站建设服网站建设套餐价格

news 2025/11/14 18:22:59

成都定制网站建设服,网站建设套餐价格,学it到哪里学比较好,加拿大28怎么做网站代理随着视频业务和短视频播放规模不断增长#xff0c;小红书一直致力于研究#xff1a;如何在保证提升用户体验质量的同时降低视频带宽成本#xff1f; 在近日结束的音视频技术大会「LiveVideoStackCon 2023」上海站中#xff0c;小红书音视频架构视频图像处理算法负责人剑寒向… 随着视频业务和短视频播放规模不断增长小红书一直致力于研究如何在保证提升用户体验质量的同时降低视频带宽成本在近日结束的音视频技术大会「LiveVideoStackCon 2023」上海站中小红书音视频架构视频图像处理算法负责人剑寒向大家分享了一项创新技术——基于人眼感知质量的端云结合超分框架。现场分享颇受关注为此我们整理了分享内容以飨读者。以下全文根据剑寒演讲整理大家好我是剑寒目前在小红书音视频架构负责视频图像算法研发和落地。今天我分享的主题是《基于人眼感知质量的端云结合画质及带宽优化实践》核心是画质与带宽优化有两个关键词分别是端云结合以及人眼感知质量。我的分享分为以下几个部分 1. 首先介绍小红书的视频处理架构以及我们如何思考音视频系统中视频处理最重要的两个目标即提升观看画质体验和降低视频带宽成本。 2. 接下来介绍小红书自研的一个基于 AI 的无参考视频质量评估算法 RedVQA它提供与人眼视觉感知一致的质量评估。 3. 我们结合 RedVQA 设计了一个端云结合超分在带宽节省以及多项播放技术指标上具有显著收益契合当下降本增效的需求。端侧超分的部署在画质提升以及带宽节省上都有帮助。 4. 最后是总结和展望。首先大家对小红书的印象是什么呢小红书最初主要面向消费场景比如美妆产品的分享和购买攻略。经过近几年的发展小红书已经变成了一个综合的 UGC 分享社区在“衣食住行玩”各方面都有大量的用户真实分享提供很多有价值的信息。同时用户群体也发生了较大的变化性别以及各年龄段的用户比例变得更加均衡。另一个显著的变化是小红书以前主要是图文笔记分享随着视频成为用户分享生活的重要载体小红书也响应趋势提出视频战略目前用户刷小红书可以发现视频笔记占了很大的比例。当前每日新增视频达到了百万级别直播消费侧业务也在稳步提升。那么PUGC 点播及直播业务背后涉及的关键技术有哪些这里展示一张架构图整个链路主要包含生产端、云端和消费端用户在生产端进行内容创作、编辑和推流然后将内容发布到后台云端进行处理主要包括多档位视频转码、内容审核与理解、以及视频搜索与推荐消费端则是用户实际体验的场景用户体验来自两方面一方面是视频推荐内容的体验另一方面是视频画质及播放流畅度的体验后者也是我们在音视频处理中需要关注和优化的目标。从这张图可以看到音视频处理横跨三端也是整个上层视频业务及应用的基础设施我们需要保障整条视频链路的稳定和通畅、关注用户体验以及降低成本带宽、计算、存储等。回归本次分享的主题如何对画质与带宽进行优化在论述这个话题前先简单介绍一下背景。小红书成立专业的音视频团队还不到 2 年如果是正常的研发路径应该是先提升体验容许增加一些成本。但是在疫情之后全行业进入降本增效主题降成本也成为我们重要目标之一。而提升体验是建立这个专业团队的初衷在不牺牲用户体验的前提下来换取技术成本的节省唯一的手段就是提升技术和优化策略。因此我们算是跑步进入了“深水区”比较幸运的是一方面我们是站在行业经验的肩膀上另一方面我们也有后发优势并结合自己的思考可以进一步改进和优化。所以如何兼顾体验和成本下面分三个层面说说我的理解。 1、模块级优化首先大家熟知的是编码标准的迭代和升级每一代标准相比前一代标准在画质基本不变前提下可以节省 30%~50% 的码率。当前小红书大规模部署的是 H.265 标准目前达到比较高的覆盖率。在研主要标准是 AV1H.266 未来也可能会跟进。新一代标准大规模落地还需要一些时间当前主要挑战是计算复杂度比较高。对于点播来说云端可以用计算成本来换而在播放端当前硬解 AV1 和 H.266 的设备非常少因此需要配套部署经过极致优化的软解。 2、跨技术方向融合编码考虑的是用最少的码率最大程度地代表原视频因此视频质量的上限就是原视频。而 UGC 创作的视频质量非常多样如果能用画质增强及修复算法提升原视频的质量那么对应消费侧的转码视频质量也能随之提升。比如一个带噪视频经过去噪算法后再编码不仅画质有提升还能进一步节省码率。当然并不是所有画质算法都能带来这种 double 的收益。比如在云端做超分画质提升的同时码率也会增加。其次当前的编码框架还是比较传统缺乏对视频内容的理解固定的编码参数以及码控算法并不是最优的。因此通过对视频场景的分类以及增加对内容和语义的理解可以进一步提升编码效果和效率。另外从主观感受来讲对于感兴趣区域提升编码质量可以更有效地提升实际观看体验而对于非感兴趣区域降低编码质量不太影响观看体验但有助于节省码率。视频分析、处理以及内容自适应编码技术整体形成了智能转码方案涉及到 high level 图像分析、low level 图像处理、编码技术的融合。据我了解各家厂商在这部分都有自己的一些方案但是智能程度包括效果和自动化程度两个方面还有待提升随着智能化程度的提升收益及效率也会越来越高。此外学术界也有一些颠覆性的前沿探索比如端到端的深度学习视频编码不过总的来说更偏中长期才有机会大规模落地。 3、全局系统优化转码是音视频处理最重要的一个任务而它也只是云端处理的重要一环。全局来看音视频处理是一个从生产端到消费端的视频处理链路。局部优化往往带来局部最优站在全局视角可以发现很多技术优化不再矛盾比如前文提到云端超分提升画质但是会增加码率理论上会增加带宽成本但如果全局分析我们可以发现 CDN 通常是根据高峰期来收费在非高峰期下发超分后的高码率视频并不会增加带宽成本。另外如果能够在播放端做好画质增强就可以下发更低码率和更低分辨率的视频从而实现显著的带宽节省后面要讲的端云结合超分就是一个典型例子。站在更大的视角用户体验包含画质体验和内容体验音视频处理的结果是提升大盘视频整体质量而视频推荐能结合视频质量评估就可以给用户推荐感兴趣且高质的视频。从编码标准迭代到全局优化我认为在兼顾体验和成本的优化上还有不少可以挖掘的点且在单一技术点上其实也还有很大空间给出这样的判断基于两个主要原因一是音视频系统的智能化程度还比较低更高的智能化意味着能够更好地兼顾体验和成本此外我们发现在音视频系统里落地的算法效果离学术界上限还有一定距离客观原因是学术 idea 通常在很小的数据集上验证而在亿级视频消费和展现上会有很多问题但好的一面是未来如果我们能利用好这些最新 idea 且解决泛化及性能问题就会产生可观的收益。从模块优化到全局优化的演进过程中我认为最重要且最基础的能力升级是质量评估。如果只是优化编码可以用 PSNR/SSIM/VMAF 等有参考指标。而当构建智能转码时这些有参考质量评估方法不再适用比如经过画质增强的视频比原视频看着更好。此外站在全局视角来看很多处理节点也没有参考视频可用相对质量评估方法也无法使用。因此质量评估需要升级为以人眼感知质量为基础并且评估视频的绝对质量。下面介绍小红书自研的质量评估指标 RedVQA它是一个基于深度学习的无参考视频质量评估算法。回到这张架构图我们希望 RedVQA 能做什么首先我们希望它能对整个视频链路任一节点的视频质量做评估包括拍摄视频的原始质量、经过编辑和特效处理后的质量、经过转码下发到消费端的质量。其次我们希望它可以指导优化画质及编码算法。最后我们希望它能够辅助上层视频业务和应用。基于上面的分析我总结下 RedVQA 的研发目标与挑战。第一个目标是能够捕捉拍摄或上传视频的多种视频质量问题挑战是如何尽量多地覆盖到各种 UGC 质量问题比如模糊、过曝欠曝、噪声、颜色不自然、过锐等。第二个目标是能够捕捉视频处理链路中的降质和升质变化要求我们能够识别和理解整个视频链路的升质和降质操作并且把这些因素融入到算法和数据集设计中。举个例子低码率编码会引入降质画质问题表现为细节丢失、清晰度下降、平坦区出现块效应、边缘和纹理区域出现振铃效应/蚊式噪声。另外值得注意的是视频压缩相比图像压缩在码率分配上更加复杂会使得视频质量在空域和时域上不是均匀分布这也对算法的智能识别能力提出了更高的要求。画质增强算法通常可以提升画质常见的超分、去模糊、去压缩损失、HDR 等算法有助于改善细节、清晰度、噪声、亮度/色彩等方面的画质体验。第三个目标是与人眼主观感受质量一致要求算法智能且泛化强。比如大光圈拍的照片会产生背景虚化效果人眼觉得 ok、有美感而算法有可能把虚化的背景误判为模糊问题。在自研数据集前我们收集了质量评估领域的几个主要数据集通过分析和总结得出一些结论a. 相比 CV 任务开源质量评估数据集规模很小b. 数据来源可能和我们线上不太一致包括用户设备和拍摄专业程度等c. 开源数据集缺少经过业务视频链路处理的数据如小红书特有的编码/画质处理、特效模板处理d. 我们也测试了使用开源数据集训练的算法在业务测试集上的准确率结果比开源数据集低很多。因此我们决定自研构建 RedVQA 数据集。数据集构建中非常关键的是视频收集主要思考的问题是如何通过有限的数据集来代表相对无限的大数据使得训练出来的算法具有很强的泛化能力。实践中我们分为三个步骤首先是视频初筛这一步根据线上视频的标签、垂类和基础视频信息进行筛选比如主要的分辨率要覆盖到包含不同的码率、转码质量的视频。第二步我们需要在候选数据集内采样一批尽可能场景丰富和质量多样的视频子集我们利用了一些场景分类以及不同画质维度的检测指标作为判断标准。通过指标采样希望采集到的数据集在各指标上更加均衡或者符合预期。经过前面两步仍然会缺失一些低质视频因为有些问题视频占比很少很难从线上筛选出来。通过对整个视频链路的理解和分析需要人工补充或构造一些低质视频。在数据标注和清洗上主要参照 ITU-T P.910 标准通过流程规范来保证数据标注质量。质量分的定义也比较重要由于美学具有很强的个体主观性我们主要考虑画质维度而不同画质维度的优先级主要参考了小红书的用户调研。算法设计上重点是如何有效提取质量特征这里需要对质量问题的产生过程有充分的认知比如视频链路中编辑和转码会如何影响质量我总结了 3 个关键点 1、在时空采样中全局构图和局部纹理信息都很重要。质量感知特征体现在局部纹理上而劣化程度在于全局感知 2、网络设计要能够捕捉大范围时空信息及依赖关系人眼对质量的感知涉及到整体语义理解、关注区域、创作意图理解等很多视频处理操作会在较大的时空范围内影响质量比如码率分配、ROI 编码 3、质量评估数据集的量级和完备程度远低于分类识别等 CV 任务而质量特征又非常复杂因此需要某种显式地辅助质量特征提取的手段。一种方法是通过添加有序的质量样本或者利用质量评估的代理任务进行数据增强及质量特征自监督学习。接下来是算法验证。首先介绍下质量评估领域的几个评价指标PLCC 表示相关性SRCC/KRCC 反映保序性RMSE 反映绝对误差。RedVQA 的相关性在 0.9 左右达到了可用的状态。此外我们也验证了算法对质量劣化的敏感程度首先需要构造一批质量保序的样本。我们通过编码参数的配置得到一系列不同分辨率和码率的样本实际线上转码服务也是基于不同分辨率以及不同的编码参数来设计转码档位这也贴合了线上的视频处理方式。上图可以看到随着质量控制参数 CRF 的增大质量分逐渐减小符合预期说明算法可以在一定程度上捕捉一些细微的质量损失。其次我们也看到同一个视频的不同分辨率版本高分辨率质量整体优于低分辨率这也符合预期。基于 RedVQA我们实现了一个大盘质量监控看板按照不同的维度统计视频的质量分。通过这些数据有助于了解大盘整体的视频质量以及各拆分维度的质量。在有了数据后后续的优化动作变得有据可依。图中展示了不同垂类的视频质量分不同分位数的质量统计使得我们对生产侧视频的质量分布有了全局的掌握。右边上图是按照分辨率拆分的生产侧视频质量统计右边下图是不同编辑方式的统计。除了生产侧质量监控消费侧视频质量监控更加重要这决定了小红书对用户呈现的整体质量。消费侧比生产侧更复杂一方面为了应对网速变化、成本控制以及端设备计算能力不同每个上传视频都需要转码成不同的档位通过播放控制来决策下发档位另一方面推荐系统会极大影响用户看到的视频内容因此消费侧质量监控除了有助于了解实际用户看到的视频质量也有助于我们对转码档位、播放以及推荐策略的优化。下面介绍端云结合超分也是今年我们降本增效的重点项目。超分这个课题在学术界和工业界研究了很多年。但面向不同的业务场景和集成系统端侧超分技术在业务目标和技术方向上存在很明显的区别。比如面向一款新的硬件设备只需要基于它的硬件加速器定制化地设计和优化算法即可。对于视频业务和 APP需要关注什么如何获得显著收益下面分享下我们的理解与实践。对于视频 APP 来说一个算法能不能落地除了离线评测外AB 实验数据是最终量化指标。我们希望获得 QoS 技术指标和 QoE 业务指标的正向收益对于降本增效任务来说带宽节省也是最重要的一个指标。而播放端视频算法落地算法性能有极大的影响算法耗时长可能引起卡顿、集成方式不对可能导致播放失败率和首帧时长增加。此外用户设备机型及性能多种多样通常在高端机上部署算法比较容易如果想进一步覆盖到中低端机会非常困难。最近两年业界在端侧超分大规模部署上有所突破效果和覆盖率的进一步提升是大家都关注的问题。但我们也发现另一个问题待解决通常算法效果验证是离线验证而上线后很难再对画质算法效果进行量化有没有 badcase 并不知道。而 QoE 指标是后验指标而且从定义可以看到它不完全受到画质一个因素影响因此 QoE 数据的好与坏并不直接对应超分效果也没法对算法后续迭代有指导作用。还要说明的是如果牺牲一部分收益落地也会更简单比如当我们针对一款高端机来设计端侧超分时可以按照其计算性能打满算法复杂度从而提升效果但在大盘上的收益就会非常有限。为了获取最大的收益我们设计了一个基于人眼感知质量的端云结合超分方案来解决上述挑战主要分为云端媒体处理和端侧播放两部分。用户在看视频时对应的云端视频是有多个档位的而不同的档位对应不同的决策。对超分来说端侧超分算法部署在播放端解码之后同时我们在云端为端侧超分定制化了的一个超分档位定制化的目的是为了精细化控制超分开启策略且补偿最终端侧超分的效果。首先我们通过带宽高峰期预测来控制超分档位下发的时间段其次我们通过质量码率收益评估来更好地平衡用户体验与带宽收益动态精细地量化出每个视频的质量问题及收益避免超分效果不佳的视频产生超分档位这里用到的质量评估即是前文提到的 RedVQA。当我们设计超分算法时首先要保证的是 QoS 数据无负向要求开启超分后的各项技术指标不会显著劣化。而为了达到比较高的覆盖率需要在中低端机上也能流畅的运行这对于算法的性能提出了更高的要求。我们对算法的性能目标有个经验性的判断计算复杂度应该在 GFLOPS 以内耗时在 10ms 以内功耗在 100mAh 以内这样开启超分后的影响可能比较小。在部署层面因为 CPU 通常被多任务共享如果算法过多占用 CPU 和内存也会引起 APP 崩溃因此我们也要求算法尽量少占用 CPU 和内存。避免“碎片化”部署的意思是我们不希望设计多个算法以及针对多个处理器做优化主要原因还是我们希望第一版算法能够快速验证和部署尽快带来收益。当然我们后续也计划对部分机型设计更优的算法进行迭代。下面的表格是一些算法调研总结可以看到公开文献中轻量深度学习超分算法 (SCSRN) 仍然有比较大的计算量尽管网络模型看起来已经非常小了而在VeriSilicon NPU 上的耗时是 19ms如果在更通用的处理器上耗时会更大。给出一个计算量级的对比5x5 高斯滤波的计算量大概在 100Mflops。虽然可以进一步对上述算法进行模型压缩不过我们总体判断在极轻量算法设计中有图像理论指导的 low level 图像算法会比深度学习更高效因此我们把目光投向超分领域更早的文献。这里列出一篇 Google 发表的很有启发意义的文献被用于节省图片下发带宽。总体来说这是一个 two-stage 算法推理时先对图片 patch 进行模式分类选出滤波 kernel然后用这个 kernel 进行滤波可以认为是一个内容自适应的滤波算法。在训练阶段通过将相同分类的输入 patch 及对应的 ground truth pixel 集合在一起形成训练集求解出 kernel。需要说明的是这个算法的 kernel 求解不是通过梯度后向传播训练出来的而是直接求的解析解。从左下图可以看到这个算法在当时还是非常高效的可以达到实时。我们认识到这个算法的计算复杂度还是有点高并且难以直接满足我们的性能目标所以借鉴它的思路做了进一步的优化。下面几个点值得探究和改进 1、模式分类还是有点复杂为了降低复杂度需要通过实验找到最有代表性的特征 2、当前的 kernel 是解析解效果上与 L2 loss 相当且是线性滤波如果能引入可导梯度学习就可以引入非线性滤波以及多种 loss 3、当前算法是 Patch-to-pixel 映射如果改成 Patch-to-patch 映射可能计算会更高效 4、最后推理结果可能出现一些画质问题考虑加一些低计算复杂度后处理方法。尽管在端侧超分算法上做了精心设计但受限于其本身的计算量能实现的效果还是有限。如果是一款终端产品研发似乎也没有更好的办法。而在我们的视频处理架构中端侧超分的输入视频或者下发的超分档位是由云端转码而来。通过定制化超分档位可以有效提升和补偿端侧超分效果。实践中我们基于 RedVQA 把原视频分成高质和低质。对于高质视频可以通过云端增强算法有效提升超分后的纹理细节对于低质视频重点在于去除一些压缩损失避免 artifact 放大。下面是整套方案的离线评测。上图是性能数据对于一个 60fps 540P 的视频开关超分帧率降得不多GPU 占用增加 20%内存增加 8M 左右在撰写本文时GPU 及内存占用经算法及性能优化后进一步降低基本没有发热问题。下表是超分档位的码率和 RedVQA 质量分数据其中超分档位是一个 540P 档位我们用了自适应锐化以及深度学习增强来生成超分档位对比的档位是一个 720P 档位考虑计算时效以及计算成本这个档位只带了自适应锐化。可以看到超分档位相比 720P 档位有 40% 的码率节省平均质量分会小一点而经过端侧超分后平均质量分也超过了 720P 档位。进一步看下超分结果和 720P 视频的质量分差值分布会发现并不是每个超分后视频质量分都高于 720P 视频。总的来说RedVQA 提供了一种规模量化视频质量的方式目前在画质优化方向上的准召率上还没有非常精细不过实践中我们可以做一些权衡和策略来弥补。以上是两个画质优化的例子。上图超分档位码率节省 45%RedVQA 提升 0.529下图码率节省 32%RedVQA 提升 0.275。从这两个例子可以看到超分视频同时兼具了画质收益和带宽收益。再看两个劣化 case。上图超分档位码率节省 45%RedVQA 降低 0.09下图码率节省 46%RedVQA 降低 0.13。我们也发现并不是所有 RedVQA 降低都是画质劣化但当码率节省过大时比如这两个 case 都超过了 40% 的平均码率节省判定为画质劣化的准确率就会提升。如前面所述我们通过质量码率收益评估可以更好的平衡用户体验与带宽成本避免一些极端的劣化 case 影响用户体验。我们也做了 AB 实验佐证大盘上的表现。实验条件是基于 iPhone XR/XS 及以上开启超分在带宽高峰 3 小时下发超分档位。实验结果还比较正向QoE 数据整体波动说明超分整体效果基本没大的问题QoS 数据在卡顿率、启播失败率等技术指标上有显著优化下发码率及带宽节省也比较显著。最后做下总结。在降本增效的大背景下如何兼顾体验和成本是大家都很关注的问题。但对于音视频处理来说体验和成本一直都是音视频处理的“一体两面”而算法研发以及技术的迭代就是为了实现“既要又要”。从技术角度来说我更关注如何提升音视频系统智能化这个话题智能化的目标之一就是实现“既要又要”另一个目标是实现更高的系统自动化程度及效率。另外更好的跨方向技术融合以及全局系统优化能力可能是构建更智能音视频系统的有效途径而基于人眼感知的质量评估是支撑音视频系统智能化的关键技术。最后端侧超分部署面临性能要求苛刻、部署覆盖率低、难规模量化等挑战我们设计了一个基于人眼感知质量的端云结合超分来解决这些挑战。对于未来的展望我们希望达到更智能的质量评估在细粒度质量评估上有所提升期待在画质优化方面发挥更好的作用。另外未来我们会持续优化云端“窄带高清”视频转码“窄带高清”的效果和收益会随着转码智能化程度的提升而持续扩大但同时我们判断整体收益提升的同时可能会伴随着画质分布方差也变大融合了多种技术的“窄带高清”码流也对质量评估的准确性和泛化能力提出了更高的要求。端云结合超分是一个非常有价值和可探索的方向总的目标我们希望端云能够深度协同提升端侧超分后效果从而无论在画质提升或带宽节省目标上带来更大的收益这里说的“深度协同”包括整体方案端云划分合理、超分与编解码技术配合、端侧计算与播放策略适配等多个层面。具体来说可以迭代更优的超分转码档位设计更具表征能力和利用 Metadata 的超分模型以及探索超分与编码的融合方案。以上就是我的全部分享谢谢剑寒小红书音视频架构视频图像处理算法负责人。模式识别与智能系统专业博士研究方向包括视频图像算法、异构计算优化等擅长算法工程联合设计及优化。曾参与或主导“数字电视SoC设计与产业化”(国家科技重大专项)、4K 120 FPS HEVC芯片算法设计、拍照/短视频/直播画质算法研发和落地。

查看全文

http://www.zqtcl.cn/news/98823/