当前位置: 首页 > news >正文

网站建设实践报告3000字wordpress消息提示插件

网站建设实践报告3000字,wordpress消息提示插件,做谱的网站,国家高新技术企业公示名单近日#xff0c;快手推荐模型团队提出了一个端到端生成式推荐系统OneRec#xff0c;该系统采用Encoder-Decoder架构#xff0c;引入了基于奖励机制的偏好对齐方法#xff0c;借助强化学习增强模型效果#xff0c;可在奖励模型引导下直接生成契合用户偏好的视频内容。通过极…近日快手推荐模型团队提出了一个端到端生成式推荐系统OneRec该系统采用Encoder-Decoder架构引入了基于奖励机制的偏好对齐方法借助强化学习增强模型效果可在奖励模型引导下直接生成契合用户偏好的视频内容。通过极致的性能优化OneRec在推荐模型FLOPs提升10倍的同时大幅削减了通信和存储等运营成本近90%。目前OneRec已在快手/快手极速版双端承接25%的线上流量带动APP停留时长分别提升0.54%和1.24%。 论文链接https://arxiv.org/abs/2506.13695 当生成式架构重塑AI技术栈时推荐系统却仍受困于模块化设计的“算力泥潭”——传统级联架构导致的算力碎片化、优化不一致等问题限制了这一核心基础设施的创新步伐。为此快手技术团队提出了端到端生成式推荐新范式「OneRec」。 【主要贡献】 1. 单阶段编码器-解码器生成框架该框架巧妙利用Encoder 对用户全生命周期行为序列进行压缩处理以此实现精准的兴趣建模同时基于MoE架构的Decoder具备超大规模参数扩展能力有力保障了短视频推荐的端到端精准生成。 2. 引入了基于奖励机制的偏好对齐方法通过奖励反馈机制并借助强化学习增强模型效果模型能够敏锐捕捉到更为细粒度的用户偏好信息。为此OneRec精心设计并搭建了一套多维度奖励系统涵盖偏好奖励、格式奖励、工业场景奖励全方位助力模型理解用户偏好。 3. 首个工业级端到端生成式推荐落地方案本系统在快手主站/极速版双端短视频推荐主场景完成验证。为期一周、覆盖 5% 流量 的 A/B 测试表明纯生成式模型 (OneRec) 仅通过强化学习对齐用户偏好即达到与原复杂级联系统相当的效果。叠加奖励模型选择策略 (OneRec with RM Selection) 后更实现了用户停留时长显著提升主站 0.54%极速版 1.24%以及7日用户生命周期 (LT7) 增长主站0.05%极速版0.08%的业务突破。 下图左展示了快手 / 快手极速版中 OneRec 与级联推荐架构的 Online 性能比较图中展示了 OneRec 与 Linear、DLRM、SIM 的 FLOPs 比较图右展示了 OneRec 与级联推荐架构的 OPEX 对比以及和链路中计算复杂度最高的精排模型 SIM 的 MFU 对比。 一、传统推荐系统框架的局限性 推荐系统是一种基于用户历史行为、物品属性以及上下文信息通过模型算法来预测用户偏好并主动推送个性化信息的信息过滤技术。在个性化新闻推送、音乐推荐、视频推荐以及商品推荐等众多场景中推荐系统都发挥着至关重要的作用。 传统推荐系统通常采用召回-粗排-精排的多层级联架构模式以平衡系统时延和效果然而在实际应用中却面临着三大核心瓶颈 其一算力效率低下。以快手为例的分析显示即使是在推荐系统中计算复杂度最高的精排模型(SIM)在旗舰版GPU上进行训练和推理时其MFU分别仅为4.6%和11.2%。与之形成鲜明对比的是大语言模型在H100上的MFU能够达到40%-50%的水平。 其二目标函数相互冲突。平台需要同时优化用户、创作者和生态系统的数百个目标这些目标在不同阶段相互掣肘导致系统整体的一致性和效率持续恶化。 更严峻的是技术代差逐渐拉大。随着AI技术的飞速发展Scaling Law、强化学习等前沿技术不断涌现并在众多领域取得了显著成效。然而现有架构却难以将这些最新的AI技术成果有效吸纳。同时由于架构的限制推荐系统也难以充分利用先进计算硬件的能力。这使得推荐系统与主流AI技术的发展步伐逐渐脱节技术代差日益拉大。 二、快手端到端生成式推荐系统OneRec 面对这些挑战快手团队提出端到端生成式推荐系统OneRec其核心在于利用Encoder压缩用户全生命周期行为序列实现兴趣建模同时基于MoE架构的Decoder实现超大规模参数扩展确保短视频推荐的端到端精准生成。同时配合定制化强化学习框架和极致的训练/推理优化使模型实现效果和效率的双赢。 目前新系统在以下几个方面的效果显著 可以用远低于线上系统的成本采用更大的模型取得更好的推荐效果 在一定范围内找到了推荐场景的scaling law 过去很难影响和优化推荐结果的RL技术在这个架构上体现出了非常高的潜力 目前该系统从训练到serving架构以及MFU水平都和LLM社区接近LLM社区的很多技术可以很好地在这个系统上落地。 2.1 OneRec模型框架 OneRec采用编码器-解码器架构如下图将推荐问题转化为序列生成任务在训练过程中使用NTP (Next Token Prediction) 损失函数优化。 2.1.1 语义分词器 面对快手平台上亿级别的视频内容如何让模型理解每个视频成为关键挑战。OneRec首创了协同感知的多模态分词方案 多模态融合同时处理视频的标题、标签、语音转文字、图像识别等多维信息 协同信号集成不仅关注内容特征更融入用户行为信息建模 分层语义编码采用RQ-Kmeans技术将每个视频转化为3层粗到细的语义ID 2.1.2 编码器-解码器 在训练阶段OneRec通过编码器-解码器架构执行下一个token预测进而实现对目标物品的更高效预测。该架构在不同阶段起到的作用分别如下 多尺度用户建模编码阶段同时考虑用户静态特征、短期行为序列、有效观看序列和终身行为序列 专家混合解码器解码阶段采用逐点生成策略通过Mixture of ExpertsMoE架构提升模型容量和效率。 2.1.3 推荐系统中的Scaling Laws 参数规模实验是OneRec研究中的另一亮点它试图回答一个fundamental的问题推荐系统是否同样遵循大语言模型领域已被证实的Scaling Law实验结果清晰地表明随着模型参数量从0.015B到2.633B的递增训练损失呈现出明显的下降趋势。 技术报告中还介绍了包含Feature Scaling、Codebook Scaling和Infer Scaling等极大地利用算力来提升推荐的精度。 2.2 RL偏好对齐 预训练模型虽然可以通过下一个token预测来拟合曝光物品的空间分布但这些曝光物品来源于过去的传统推荐系统这导致模型无法突破传统推荐系统的性能天花板。 传统推荐系统通常定义多个目标如点击量、点赞数、评论数和观看时长然后通过加权融合每个目标的预测值xtr将其组合成一个分数。然而手动调整这些融合权重既缺乏准确性又缺乏个性化并且常常导致目标之间的优化冲突。 为了解决这一挑战OneRec引入了基于奖励机制的偏好对齐方法利用强化学习增强模型效果。通过奖励反馈机制模型得以感知更为细粒度的用户偏好信息。为此OneRec构建了一套综合性的奖励系统包括如下 偏好奖励Preference Reward用于对齐用户偏好 格式奖励Format Reward确保生成的token均为有效格式 工业场景奖励Industrial Reward以满足各类业务场景的需求 首先什么样的视频应该被奖励呢面对这一问题OneRec提出采用偏好奖励模型能基于用户特征输出对不同目标预测值进行「个性化融合」后的偏好分数。过程中利用该分数「P-Score」作为强化学习的奖励ri并通过GRPO的改进版ECPO(Early-Clipped GRPO)进行优化。结果显示相较于GRPOECPO对负优势A0样本进行更严格的策略梯度截断保留样本的同时防止梯度爆炸使训练更加稳定。 OneRec在快手两个场景进行了强化学习的消融实验线上结果显示在不损失视频曝光量的情况下显著提升APP使用时长。 其次在OneRec中词表空间远大于全部视频数量这会导致在推理阶段生成的语义ID序列可能无法映射回真实视频ID即非法生成。OneRec指出强化学习虽然能提升效果但由于「挤压效应」会导致模型输出的合法性显著下降不仅推理成本变大且不利于推荐的多样性。 挤压效应负向优势的梯度会将大部分的概率质量挤压到当前模型的最优输出o*大部分合法输出的概率被抹平。 针对这个问题OneRec提出「以暴制暴」用强化学习的方法解决强化学习的问题引入格式奖励Format Reward鼓励合法的输出以缓解挤压效应。OneRec对两种合法样本的挑选方法进行了实验并观察到非常有趣的结论 从生成样本中挑选概率最大的k个生成样本的总体合法性先上升后衰减所挑选样本的合法性很快收敛到100% 从生成样本中随机挑选k个生成样本的总体合法性和所挑选样本的合法性同时上升未出现衰减。 这些现象表明如果用概率最大的k个样本训练模型会很快捕捉到奖励的内在机制从而引发「Rward Hacking」现象。该实验不仅验证了格式奖励的有效性而且表明奖励的准确定义十分重要。 除了以上提到的用户偏好奖励和格式奖励OneRec还引入了工业场景奖励以满足特殊工业需求如营销号的打压、冷启视频和长尾视频的分发等。 2.3 性能优化 从衡量算力效率的核心指标MFU模型浮点运算利用率来说传统推荐排序模型长期深陷个位数魔咒主要有两方面的原因 一是业务迭代积累的历史包袱如快手精排模型算子数量高达15000个复杂结构导致无法像LLM那样进行深度优化 二是成本与延迟约束下的规模瓶颈致使单个算子计算密度低下显存带宽成为性能天花板GPU算力利用率长期低于10%。 而OneRec的生成式架构带来破局性变革通过采用类LLM的encoder-decoder架构精简组件将关键算子数量压缩92%至1,200个配合更大模型规模提升计算密度同时通过重构推荐链路释放延迟压力使训练/推理MFU分别飙升至23.7%和28.6%较传统方案实现3-5倍提升首次让推荐系统达到与主流AI模型比肩的算力效能水平。  除了模型结构的天然优势团队还针对 OneRec 特性在训练和推理框架层面进行了深度定制优化。 2.3.1 系统深度优化 除了模型结构的天然优势我们还针对 OneRec 特性在训练和推理框架层面进行了深度定制优化。 训练优化 计算压缩针对同一请求下的多条曝光样本如一次下发 6 个视频平均 5 条曝光这些样本共享用户和 context 特征。我们按请求 ID 分组避免在 context 序列上重复执行 ffn 计算。同时利用变长 flash attention有效避免重复的 kv 访存操作进一步提升 attention 的计算密度。 Embedding 加速优化针对单样本需训练 1000 万以上 Embedding 参数的挑战我们自研了 SKAI 系统实现了 Embedding 训练全流程在 GPU 上完成避免 GPU/CPU 同步中断通过统一 GPU 内存管理UGMMU大幅减少 kernel 数量采用时间加权 LFU 智能缓存算法充分利用数据的时间局部性并通过 Embedding 预取流水线将参数传输与模型计算重叠有效隐藏传输延迟整体大幅提升了 Embedding 训练效率。 高效并行训练采用数据并行 ZERO1 梯度累计的训练策略。选择 ZERO1 是因为模型 Dense 参数较小单 GPU 可容纳完整模型参数和梯度在 interleaving 多个 macro batch 时能够减少数据并行组的同步开销。 混合精度与编译优化绝大部分 op 使用 BFloat16 进行运算对全图进行编译优化通过计算图优化和 kernel fusion 减少计算开销。 推理优化 OneRec 在推理阶段采用大 beam size通常为 512来提升生成式推荐的多样性和覆盖率。面对如此大规模的并行生成需求我们从计算复用、算子优化、系统调度等多个维度进行了深度优化 计算复用优化: OneRec 针对大规模并行生成需求通过多种计算复用手段大幅提升效率首先同一用户请求下 encoder 侧特征在所有 beam 上完全一致因此 encoder 只需前向计算一次避免了重复计算其次decoder 生成过程中 cross attention 的 key/value 在所有 beam 间共享显著降低显存占用和算力消耗同时decoder 内部采用 KV cache 机制缓存历史步骤的 key/value进一步减少重复计算。 算子级优化: OneRec 推理阶段全面采用 Float16 混合精度计算显著提升了计算速度并降低了显存占用。同时针对 MoE、Attention、BeamSearch 等核心算子进行了深度 kernel 融合和手工优化有效减少了 GPU kernel 启动和内存访问次数全面提升了算子计算效率和整体吞吐能力。 系统调度优化: OneRec 通过动态 Batching 策略根据当前系统负载和请求延迟实时调整 batch 的大小尽可能提升每个 batch 的并发度。这种方式能够有效减少单次请求的平均访存带宽消耗进一步提升整体计算效率和系统吞吐。 通过以上系统性的优化策略OneRec 在性能方面取得了显著提升。在算力利用率方面训练和推理的 MFU 分别达到了 23.7% 和 28.8%相比传统推荐模型的 4.6% 和 11.2% 有了大幅改善。运营成本降低至传统方案的 10.6%实现了接近 90% 的成本节约。 2.4 Online实验效果 OneRec在快手主站/极速双端app的短视频推荐主场景上均进行了严格实验。通过为期一周5%流量的AB测试纯生成式模型OneRec仅凭RL对齐用户偏好即达到原有复杂推荐系统同等效果而叠加奖励模型选择策略OneRec with RM Selection后更实现停留时长提升0.54%/1.24%、7日用户生命周期LT7增长0.05%/0.08%的显著突破——须知在快手体系中0.1%停留时长或0.01% LT7提升即具统计显著性。 更值得关注的是模型在点赞、关注、评论等所有交互指标上均取得正向收益(如下表)证明其能规避多任务系统的跷跷板效应实现全局最优。该系统目前已经在短视频推荐主场景承担25%的QPS。 除了短视频推荐的消费场景之外OneRec在快手本地生活服务场景同样表现惊艳AB对比实验表明该方案推动GMV暴涨21.01%、订单量提升17.89%、购买用户数增长18.58%其中新客获取效率更实现23.02%的显著提升。 目前该业务线已实现100%流量全量切换。值得注意的是全量上线后的指标增长幅度较实验阶段进一步扩大充分验证了OneRec在不同业务场景的泛化能力。 三、总结和展望 OneRec通过创新的生成式架构重构推荐系统的技术范式。与此同时经过极致的工程优化在效果与效率双重维度上实现全面超越。当然新系统还有很多地方未完善报告中仍指出了三个待突破的方向 推理能力Infer阶段step的scaling up能力尚不明显这预示着OneRec还不具备很强的推理能力 多模态桥接构建用户行为模态与LLM/VLM的原生融合架构借鉴VLM中的跨模态对齐技术实现用户行为序列、视频内容与语义空间的统一学习成为一个原生全模态的模型 完备的Reward System目前Reward System的设计还比较初级。在OneRec端到端的架构下Reward System既能影响在线结果也能影响离线训练我们期望利用该能力引导模型更好地理解用户偏好和业务需求提供更优的推荐体验。 可以预见随着AI能力的持续融入OneRec将释放出更强大的能力在更广泛的推荐应用场景中创造更大的业务价值。
http://www.zqtcl.cn/news/185910/

相关文章:

  • 山西网站制作公司兼职做网站安全么
  • 阿里做网站怎么做青岛网站维护
  • 怎么建网站手机版郑州网站建设哪家好
  • 做企业网站有哪些好处安龙网站建设
  • 怎做连接网站wordpress iis设置方法
  • ugc网站开发网站设计常见流程
  • dz论坛可以做招聘网站国内空间没备案可以打开网站吗
  • 建设用地规划证查询网站公司起名字大全免费好听
  • 杭州网站建设公司有哪些瑞诺国际的数字营销模式
  • 宣城网站建设 有限公司高州做网站
  • 做外贸最适合的网站系统有可以做国外支付系统的网站吗
  • 建设执业资格注册中心网站办事大厅ui设计素材库
  • 个人网站免费建站4399电脑版网页链接
  • 重庆开县网站建设公司推荐网站建设与维护高职
  • 关于网站开发的技术博客海口网站设计建设
  • xx市院门户网站建设方案做视频特技的网站
  • 肇庆seo公司咨询23火星seo 网站
  • 天元建设集团有限公司破产新手seo网站做什么类型好
  • spa.net网站开发二次开发需要什么
  • 如何做网站静态页面商丘网签查询
  • 网站建设好学么模版型网站是怎样的
  • 网站维护建设费应计入科目高端营销型网站制作
  • 推荐几个好的网站wordpress 加载数据库表格也卖弄
  • 承德网站开发找人做网站安全吗
  • 百度网站推广电话眼镜网站怎么做竞价
  • 邢台建设银行官方网站为什么建设网站很多公司没有
  • 闵行做网站费用湖南正规网络营销哪家便宜
  • 找个公司做网站需要注意什么wordpress用户名长度
  • 推荐几个没封的正能量网站营销技巧和营销方法视频
  • html mip 网站桂林市临桂区