网站建设骗子公司,崇州市微信端网站建,手机网站建设 jz.woonl,做co网站作者#xff1a;李凯 一、前言
近年来#xff0c;内容电商似乎已经充分融入到人们的生活中#xff1a;在闲暇时间#xff0c;我们已经习惯于拿出手机#xff0c;从电商平台的直播间、或者短视频链接下单自己心仪的商品。 尽管优质的货品、实惠的价格、精致的布景、有趣的…
作者李凯 一、前言
近年来内容电商似乎已经充分融入到人们的生活中在闲暇时间我们已经习惯于拿出手机从电商平台的直播间、或者短视频链接下单自己心仪的商品。 尽管优质的货品、实惠的价格、精致的布景、有趣的内容输出都是非常关键的影响因素内容电商也必须基于两个前提画质要高清、播放要流畅。曾经有不少商家和主播因为直播间画质较差的问题而苦恼不了解如何实现高画质开播。 在一系列前沿音视频技术的加持下淘宝音视频技术团队解决了这个问题。 下图是一个直播间画质体验极致打磨案例主播通过团队自研的一系列音视频技术包括视频编码、视频增强处理、视频质量评价等实现了超低码率的 1080p 高清直播 左720p 直播右超低码率 1080p 直播 同样还有短视频画质体验极致打磨案例通过团队自研的上述音视频技术实现了视频清晰度和纹理细节的大幅提升 左增强前右增强后 不难发现在上述案例中改造后的画面质感变得更好从「标清」飞跃到了「超清」人像肤色也变得更自然连商品色彩都更加准确了。这种肉眼可识别的提升都来自团队提供的音视频技术能力加持打造业界领先的音视频体验尤其是视频画质和流畅度。 但从技术层面上说如何分析、定位视频内容存在的问题并找到有针对性的改造方法仍然是一个复杂的过程。这就要从音视频技术的前世今生说起。
二、互联网视频化趋势
时至今日数字电视的技术已经能够很好的满足我们的视听体验了。在数字电视带来的体验升级的过程中随着技术的进步人们告别了磁带录像带这种存储介质过渡到了 VCDDVD 以及如今的 blue-ray蓝光也衍生除了对应的 MPEG-2 (H.262)H.264/AVCH.265/HEVC 和 H266/VVC 这样的视频编码、压缩技术用以提高画质并有效地节省存储和带宽成本。
广电的这一套视频技术非常专业制作成本和周期也很高包括完整成熟的工业化链路比如布景、拍摄、处理、剪辑、编码、传输、通信等。长期优质的消费体验其实给了消费者很强的心智。广电很大程度上就代表了专业代表了优质的体验尤其是画质方面。 而 2010 年代中出现了明显的视频互联网化的趋势视频的制作和分享在大规模地从传统的广电向互联网OTT 迁徙。长视频中视频直播短视频相关业务在互联网上蓬勃发展。对于一个互联网公司来说在技术层面视频的互联网化做得越好体验越优越能更好地吸引商家和 C 端用户。内容的电商化或电商的内容化也成为了很多互联网头部公司的焦点战役。 互联网视频的制作和分享成本非常低对于 C 端用户来说更是几乎接近于零。为支持好视频的互联网化很大的工程技术工作就是把之前广电链路的能力在互联网平台上得以实现从而提供广电级别的视频播放体验。 三、淘宝中的音视频技术
在淘宝的实际内容化业务中包括视频内容的供给和分发等环节的整个视频业务生命周期需要综合视频生产、视频处理、视频传输、视频呈现、和音频端到端的的全链路能力才能确保整体视频的高画质和流畅度。而消费者对于视频画质的需求是越来越高的比如要兼顾较高的清晰度和播放的流畅度也要控制从生产到下发的整体成本。
这意味着平台的视频处理技术演进必须面对千变万化的市场需求和业务体量爆炸式增长所带来的各种挑战。为此团队支持淘宝直播、Tab2(逛逛)、首页信息流等内容业务的整体解决方案并保持着持续、高速的迭代。
通过对上述技术进行针对性的自研包括视频编码器、视频增强方案、美颜/美型/美妆、无参考视频质量评价模型以及媒体处理系统并通过接入低延时传输网络 GRTN为直播、首页等内容业务提供底层核心技术打造业界领先的音视频体验尤其是视频画质和流畅度。 通过持续的技术打磨和算法创新力求高质量、低成本赋能淘宝内容业务助力淘宝内容化战略所沉淀的平台技术和产品能力亦可被集团其它业务复用。这些多年来沉淀的技术能力也曾经在多个音视频核心技术的国际权威比赛中折桂。 四、技术大图
音视频技术包含的技术域涉及到平台上所有音视频流的整个生命周期从生产到分发到最后的消费如下的技术大图所示包含若干核心技术模块 音视频技术大图
注该技术大图中罗列了很多相关技术方案但并非所有的技术都已经在业务中被采用。
4.1 视频生产
为提升视频内容质量内容生产者必不可少地会对内容本身进行“编辑”。编辑方式包括但不限于基于人像美化能力提升视频中人物主体的美观程度基于前处理能力提升内容本身的清晰度基于风格化滤镜提升视频内容的氛围感以及基于预定义的剪辑模版生成不同风格的视频等等。如何去提升编辑效果丰富编辑能力降低使用门槛是各大视频生产软件持续优化的方向。 其中人像美化一项编辑能力透出给用户的是美颜美型美白美妆美体等 5 大子功能。而支撑人像美化效果所依赖的底层算子包括但不限于人脸人体等 2D 到 3D 的视觉算法并且所有的算法都需要在移动端上对视频进行实时处理。 提升优化底层算子效果的同时一些场景必须兼顾实时性发热等性能强相关因素。算子的编排与联合优化不同端iOS、AndroidPC不同算力平台的NPU、GPU、CPU的适配也是人像美化的攻坚重点。 随着生成式 AI 技术的爆发AIGC 已成为继 PGCUGC 之后的新型内容生产方式。但如何平衡好生成内容的丰富性与稳定性是 AIGC 技术辅助视频生产能否落地的一大挑战。
4.2 视频处理
内容生产者制作的视频内容包括短视频和直播场景上传到服务端之后在最终分发给终端用户之前还需要经过一系列的处理来提升画质和降低码率我们称之为 TMPSTaobao Media Processing System。 TMPS 主要包括三个步骤:
首先是对源内容进行解码需要兼容各种媒体格式、各种音视频编码标准包括支持图片格式。 其次使用团队自研的 STaoVideo 视频增强方案对解码后的内容进行增强提升画质体验包括噪声去除色彩、细节、亮度增强超分、超帧、HDR 等手段其中既有传统方法也有深度学习的方法。STaoVideo 会自动根据源视频内容的特点和热度选择不同的增强算子在有限的算力成本下最大化画质提升的效果。 最后是使用更高效的编码器重新编码包括淘宝内容技术团队自研的 S265 和 S266 编码器提高压缩效率降低流量成本同时保障画质没有明显损失。TMPS 支持同时转码出不同分辨率的多路流其中高分辨率高码率的流用于保障主流用户的画质体验低分辨率低码率的流用于兼容低端设备和弱网等情况。
4.3 视频传输
从直播内容生产到用户在直播间看到需要经过一个复杂的 CDN 传输网络传统的 RTMP 和 HLS 协议延时较大随着 5G 的兴起出现了连麦、直播答题等低延时内容形式传统协议已经无法完全满足业务诉求。因此淘宝和阿里云一起建立了通信、直播二网合一的低延时传输网 GRTN实现了全链路 RTC 传输。配合 CDN 的基础设施淘宝从 0 到 1 建设了 RTC 流媒体传输协议在主播推流侧和手淘播放侧对 GRTN 做了率先的业务实践成功落地淘宝直播且实现了全量覆盖。 淘宝直播的视频传输方面实现了 1 秒内的端到端时延同时也可以快速满足淘宝不断涌现的业务形态对音视频媒体传输的底层诉求比如《中国新主播 2023》大赛的“多人连麦 PK”活动。 GRTN 架构示意图 针对直播和短视频体验优化需求研发基于弱网分类的带宽预测算法结合实时画质评价实现上行推流分辨率决策并优化下行 ABR 算法实现低延时直播和点播业务的自适应切流通过拥塞控制预加载等算法优化 Qos实现秒开首帧时间减少 200ms卡顿降低 50%以上。 当前还在探索错误隐藏、丢包重传、平滑发送、时域分层等算法来提升用户体验。
4.4 视频呈现
随着淘宝内容化进程加深以及用户对于内容“高清、好看、好玩”的追求淘宝也在探索新的媒体形态出现了直播连麦、在线答题、语音播报以及游戏直播等新的内容形式需要以良好的体验来承接新能力和新用户。
首先对播放器进行架构升级通过优化播放逻辑、提升硬解覆盖率以及通过性能和网络建立自适应选流/切流能力优化在中低端手机上的卡顿和发热等问题通过支持播放侧超分后处理增强等方式有效提高用户在弱网下的清晰度。
其次通过支持 VR/AR 以及 HDR 视频播放进一步提升视频呈现方式。端侧互动能力也在持续建设通过更多的道具和互动玩法比如遮脸合拍等让用户感觉更好玩更愿意参与其中。
4.5 音频端到端
声音是传递信息的重要媒介但淘宝直播环境和设备各种各样在直播间经常混杂各类的噪声影响用户听感在连麦场景下则易产生回声和啸叫等问题主播往往还希望有背景音乐变声音效等玩法内容化主播还希望达到类似演唱会的音质效果。如何利用技术手段使用户获得“声”临其境的视听感受成为了一个重要的任务。 内容技术团队从音频采集、前处理、编解码、传输、播放的全链路入手优化直播音质体验自研 3A 算法 SDK回声消除、自适应降噪、自动增益控制较好的满足了前处理需求音频子系统支撑了连麦合流功能拥有弱网抵抗音画同步等能力针对无参考音频质量评价的需求采用机器学习方法实现了 MD-AQA 音质评价模型用于大盘音质监控实现音质处理和评价间的闭环。 直播间噪音示例 五、音视频技术在淘天的实践
随着整个工业界在音视频领域的投入的扩大和整体技术水位的提升以及淘宝对于用户体验、包括画质方面愈发重视我们也对一些核心的技术模块进行了深度自研和持续迭代打磨尤其是在淘宝直播和短视频包括逛逛的重要场景取得了较好的提升体验且降低成本的效果。 在如下的示意图中可见无论是直播还是短视频的处理都离不开视频增强、处理和视频编码技术所不同的是两个场景对实时性的要求不同。同时为追求高画质呈现体验整个端到端链路中的所有环节的失真甚至包含画质源本身的低画质都需要被较好的考虑和量化因此无参考考的质量评价在衡量画质体验的过程中也至关重要。视频增强视频编码和无参视频质量评价是保障视频画质的三个重要技术方向。 5.1 视频增强
在直播和短视频中我们都需要关注画质致力于为用户提供最好的画质体验。我们建设了 STVideo 视频增强方案通过不同的算子针对性增强画质。 直播更侧重在弥补摄像头成像不足针对移动端摄像头噪声偏大的问题我们上线了噪声去除算子针对低端色彩不足的问题我们提供了色彩增强的算法供用户使用。短视频主要通过云端算子在转码过程中对视频进行增强处理这其中包括了差异化的智美高清和普惠高清算子分别针对高热视频和大盘视频提升画质并降低转码过程中的算力成本开销。对于低分辨率视频进一步采用超分算法提升分辨率。 团队既关注业务和人眼主观体验同时关注业界进展积极探索能够提升客观指标的方法。团队同学在日常业务研发中探索出的新方法渐进式训练的两阶段视频恢复方法。在 2022 年 CVPR NTIRE 比赛在视频超分与质量增强比赛的三个赛道获得两个赛道冠军一个赛道亚军。CVPR NTIRE(New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing)是全球图像视频增强方面的顶级竞赛。继在 MSU 世界编码器比赛夺魁后团队再次在音视频的核心方向的权威比赛中折桂。 比赛云集了国内外十几支参赛团队包括腾讯、字节、华为等知名科技企业中科院、北大、港中文、ETH 等科研机构都有参赛其中很多比赛者都有多年的参赛经验。经过激烈的角逐团队最终取得了两冠一亚的成绩。 CVPR NTIRE 2022 视频超分与增强比赛排行榜 左源视频右注重人像区域生成能力的视频增强效果视频来自 5 月底采买视频 面向未来我们将为不同的业务、场景的视频提供更加细分、差异化的视频增强手段 针对中低画质视频画面模糊是常见问题为此我们需要提供强去模糊模型联动 MD-VQA 画质分自适应地选定去模糊的强度、区域实现多场景下的通用去模糊 针对以人像为主的视频增加人像区域的注意力机制引导模型对人像区域增强生成能力同时约束人脸区域保持自然观感实现低画质人像视频到高画质人像视频的跃迁见下图 针对画质还不错但色彩、亮度不足的视频提供定制化色彩亮度增强能力进一步提升画面观感 针对直播场景我们会根据机型提供提供更加丰富的画质增强能力包括色彩亮度提升、画面通透度提升能力。
5.2 视频编码与传输
随着互联网内容化的兴起特别是视频化和直播的流行视频编码成为业务的核心基础技术之一未经压缩的高清视频体积巨大不利于网络传输和存储。 自从从 20 世纪 90 年代初以来国际通信联盟 ITU-T VCEG 以及国际标准化组织 ISO/IEC MPEG 两大组织分别或共同发布了数代视频编解码标准目前业界使用最多的是 H.264 /AVC 以及 H.265/HEVC。前者在数字电视互联网视频会议等服务中广泛使用后者则对高清超高清视频和 HDR 视频的普及做出了重要的贡献。 H.266(VVC) 是最新颁布国际视频编码标准其第一版于 2020 年 7 月制定完成相比上一代标准 可以在相同主观质量条件下将视频带宽降低 40%有着巨大的应用前景。 【业务】S265 应用
淘宝内容技术团队自研的 S265 编码器是对 H.265/HEVC 标准的高效实现经过多年的产品化打磨已全面应用于包括淘宝直播、首页信息流、淘宝逛逛在内的淘宝内容业务并以较低的带宽和资源消耗实现高清画质编码对比前一代标准画质相等的前提下降低码率 40%以上经过 S265 编码器压缩后普通手机在 3G 网络也可顺滑观看 1080p 高画质最新发布的手机亦可支持 4k 30FPS 超高清直播。 【比赛】S265、S266
基于 S265 的核心技术团队还开发了 H.266/VVC 标准编码器 S266两个编码器分别参加了 MSU 2020 和 2021 连续两届比赛取得多个赛道第一。 在 MSU2020 全高清客观性能赛道上S265 获得了两项 PSNR 指标第一在 MSU2021 全高清客观性能赛道上S266 更是获得 14 项评测指标中的 8 项第一在主观性能赛道S266 在 16 款参赛编码器中以大比分优势获得第一与 MSU 官方指定的基准编码器 x265 相同的主观质量下带宽节省了 71%之多S266 也成为两项比赛唯一一个所有指标都进入前三的编码器。 MSU莫斯科国立大学世界视频编码器大赛是视频编码领域最权威的全球性顶级赛事迄今已由 MSU 的 Graphics Media Lab 连续举办了十八届其评测报告被业界广泛认可吸引了包括 Google、Netflix、Intel、Nvidia、腾讯、字节、华为等国内外知名科技企业参与代表了行业发展的风向标。 MSU 2020 Main FullHD 1 fps YUV-PSNR 排名 MSU 2021 Main FullHD 1 fps YUV-PSNR 排名 S265 编码器在码率控制、快速算法、编码工具实现、工程加速几个方面进行了创新实现对 X265 编码器的超越在 1fps 速度档位下 YUV-PSNR 指标领先 35%。 S266 在 S265 编码器的基础上进一步在符合 VVC 标准的范畴下进行优化。主要的工作包括针对新的工具集的适配比如让 S265 中的很多优化手段延伸到了 VVC 中更大的编码单元块CTU更复杂多变的块划分结构不一样的运动矢量估计等新的编码工具同时引入了预分析、自适应量化、时域运动滤波等技术来提升编码效率且在编码过程中使用更多的快速算法减少整体计算复杂度通过汇编优化让密集计算模块提速最后采用帧、CTU 行、块级并行减少整体编码时长使得 S266 编码器相比 H.266/VVC 的参考软件 VTM11 有了极大的速度提升且可运行在 1fps 速度档位大规模的 VVC 离线编码应用成为可能。 S266 提供了对比 H.265 开源软件 X265 very slow 档 50%的编码效率提升同等画质下码率减少 50%夺得此次 MSU 比赛中 PSNR 等多个指标的第一名。 【业务】S266 落地
通过 MSU 的权威认证展现了 S266 强大的压缩效率但要推动 VVC 标准的商用路还很长。这是因为 VVC 作为 HEVC 的下一代编码标准引入了诸多新的编码工具这些工具一方面带来了压缩效率的提升同时也对算力提出了更高要求同时在当前手机芯片不能支持 H.266 硬件解码的前提下软件解码的发热卡顿等问题都会较大的制约淘宝内容技术团队一直致力于优化 S266 编解码器的算力。 针对移动手机芯片的特性团队进行了多个维度的优化包括多核并行、ARM 汇编、内存访问效率、内存占用大小等低端手机仅使用 2 核就可以解码 720p 视频中高端手机可支持 1080p 实时解码。 针对手淘稳定性、内存占用、包大小等方面的需求还进行了数万条异常码流的严格测试确保稳定性并采用固定内存管理避免重复分配和释放优化参考帧管理策略与编码器配合减少参考缓存帧数量实现较低的内存占用在包大小方面也进行了极致的裁剪使得手淘包大小增量在 800k 以内。 随着编解码器的优化逐渐成熟以及设备算力的逐步提升2023 年团队开始 VVC 在淘宝的落地。 首先淘宝媒体处理系统 TMPS 嵌入了 S266 编码插件并支持 ISO/IEC MP4 容器的封装和解封装支持与智美高清结合的转码模板实现编码和增强的强强结合。 其次手淘播放器适配 S266 解码插件针对 seek上下滑预加载等场景进行优化并兼容播放降级逻辑支持多种格式和分辨率的选流逻辑实现播放和解码的内存解耦。在内容总线和业务侧还实现了多流转码和播控下发逻辑。 在即将到来的双十一手淘逛逛用户将能观看基于 S266 技术的 VVC 高清视频享受流畅的播放体验。 为了满足淘宝直播对实时编码的需求团队还研发了 S266 快速档fast 档通过挑选高性价比工具优化块划分模式选择滤波等算法引入 AVX512 指令集进一步提高帧级和行级并行度使得 S266 在个人 PC 上能达到 1080p 实时编码。直播全链路也将支持 VVC over RTMP/RTP 的推流传输播放用户不久将可在淘宝直播中观看基于 VVC 技术的直播。 【传输】
在视频传输侧码率自适应算法ABR根据用户网络条件以及缓存等信息自适应地调整播放分辨率达到画质和卡顿 QOE 的平衡。淘宝内容技术团队根据直播低延时的特点增加源端码率传递通道实时准确获取码流信息并通过带宽探测实时获取用户带宽信息改进 ABR 网络结构和 QOE 状态模型考虑直播跳帧和快慢播面临的 Reward 对齐问题提出自创的 ABR 算法首次实现低延时直播下的自适应切流将直播百卡次数降低 27%。 在短视频选流上根据历史切片的下载时长结合传输层信息以及网络类型来估算带宽经过大量 AB 实验确定最佳参数并解决质量和码率不匹配问题帮助 1080p 播放降级率大幅降低。 1080p 占比 VS 百秒卡顿率 退出率 VS 卡顿时长
5.3 无参视频质量评价
近年来互联网内容视频化的趋势密不可分从生活、娱乐到学习视频都已经成为了很多人获取信息的第一介质。其中UGC 视频内容几乎占据了整个互联网视频流量中的 70% 到 80%。人们既消费这些 UGC 视频内容也在创造着自己的「作品」。任何人都可以使用一台手机拍摄、上传短视频也可以开通自己的直播账号分享自己的生活。 但 UGC 视频的质量往往是参差不齐的。首先是因为其质量受制于拍摄设备、拍摄环境、拍摄技巧等因素即使视频内容的制作方极具经验且原始视频质量非常高一旦经过平台的各种处理、分发环节或是其他用户的二创消费者在另一端看到的视频效果都有可能打折扣。 在缺乏理想的视频参考源的质量评价场景逐渐成为主流的趋势下无参考视频质量评价作为质量评价的主要的技术手段在过去的几年里越来越受到广泛关注。然而该领域缺乏具备公信力的 baseline没有像传统广电中 PSNR, SSIM, VMAF 这样的传统指标。并且学术界的 UGC 视频质量评价研究尚处于起步阶段没有形成有共识的权威的方向和可供工业界直接应用的标准。 因此团队基于淘宝直播、Tab2、首页信息流等内容业务自研了一种针对 UGC 视频的无参考视频质量评价模型 ——MD-VQAMulti-Dimensional Video Quality Assessment综合视频的语义、失真、运动等多维度信息并进行时空域的融合来衡量视频绝对质量的高低。在公开的视频质量评价数据集 LIVE-WC 和 YT-UGC以及 TaoLive来源于淘宝视频业务包含 3,762 个视频覆盖不同的内容、失真、和质量并通过专业的主观标注上MD-VQA 在主流视频质量评价指标 SRCC 和 PLCC 上均超过了 SOTAState-Of-The-Art方法达到了先进性能。 目前MD-VQA 已经全面应用于包括淘宝直播、淘宝信息流、淘宝逛逛等淘宝内容业务「量化」并监控视频业务的大盘画质变化快速、精准地筛选出不同画质水位的直播间和短视频帮助提升平台内容画质。以淘宝直播为例MD-VQA 提供分钟级的在线质量监控能力能够快速、精准地筛选不同画质水位的直播间协助线上低画质 badcase 的挖掘分析实时提醒主播画质问题方面的瓶颈问题配合《电商直播高画质开播指南》提供改进措施使得淘宝直播主播画质满意度显著提升在收到过提醒的主播中75%希望保持和完善实时提醒服务。 此外MD-VQA 在整个阿里集团内部也在支撑越来越多的画质评价相关业务比如钉钉直播、ICBU 直播和支付宝直播协助监控视频相关业务的画质体验。相关论文被计算机视觉领域顶级会议 IEEE/CVF Computer Vision and Pattern Recognition Conference 2023CVPR 2023成功收录。 同时基于在日常业务的经验积累团队在 MD-VQA 的基础上研发了无参考视频质量评价模型 TB-VQA并参加了 CVPR NTIRE 2023 视频质量评价竞赛拿下该比赛唯一赛道冠军。 本场比赛云集了国内外顶级的几十只参赛队伍包括字节、快手、网易、小米、Shopee 在内的知名科技企业以及北京航空航天大学、新加坡南洋理工大学等高校。TB-VQA 从 37 支队伍中脱颖而出在主得分Main Score、SRCCSpearman Rank Order Correlation Coefficient及 PLCCPearson Linear Correlation CoefficientSRCC 和 PLCC 越高表明与 GT 越接近三项指标均位居第一。 CVPR NTIRE 2023 视频质量评价比赛排行榜 美颜画质FACE-VQA音频质量评价MD-AQA
除了用于通用场景视频质量评价的 MD-VQA 模型我们还研发了针对美颜质量评价的 FACE-VQA 模型和针对音频质量的 MD-AQA 模型。FACE-VQA 首先检测视频中的人脸然后根据人们的审美标准对人脸的肤质、肤色及脸型进行多维度的综合评价。FACE-VQA 已经用于美颜算法的迭代和淘宝直播大盘美颜效果的监控后续会继续提升 FACE-VQA 的准确度完善妆容部分对美颜的影响。 针对明确的无参考音频质量评价的需求MD-AQA 从多个维度出发采用深度 CNN 自我注意力模型对噪声语音连续性响度音色四个维度进行评分并同时预测 MOS 分。目前 MD-AQA 已经用于淘宝直播大盘音质的监控帮助发现和改进音质较好/较差的直播间。 六、志同道合
如果你对音视频的业务感兴趣可以直接投简历到这个邮箱meiguang.jmgtaobao.com欢迎一起加入。