网站开发费属于软件费吗,公众号怎么做文章编辑,上海金工建设集团有限公司网站,网络培训班答案作者#xff1a;三羊、李宝珠、李玮栋、Yudi、xixi 编辑#xff1a;李宝珠 在大模型时代的浪潮中#xff0c;机器学习系统正经历着前所未有的变革。模型规模的急剧膨胀#xff0c;让我们见证了 AI 能力的巨大提升#xff0c;然而这种提升不仅为各个领域带来了新的机遇三羊、李宝珠、李玮栋、Yudi、xixi 编辑李宝珠 在大模型时代的浪潮中机器学习系统正经历着前所未有的变革。模型规模的急剧膨胀让我们见证了 AI 能力的巨大提升然而这种提升不仅为各个领域带来了新的机遇也引出了一系列新的技术挑战和实践上的难题。 12 月 16 日2023 Meet TVM · 年终聚会在上海创业者公共实训基地成功举办。本次 Meetup 中Apache TVM PMC、上海交通大学博士冯思远担任主持人与 4 位嘉宾围绕「大模型时代的机器学习系统」这一主题展开了全方位、多角度的交流和探讨。
本次圆桌对话的 4 位嘉宾分别是
* OpenBayes贝式计算创始人兼 CEO 王臣汉
* 蔚来汽车自动驾驶 AI 引擎负责人吴钊
* OctoML 机器学习系统工程师金乐盛
* 字节跳动机器学习系统工程师朱虹宇 从左至右依次为冯思远、王臣汉、吴钊、金乐盛、朱虹宇
我们在不违原意的前提下将本场对话汇总如下快来一起听听各位嘉宾的精彩见解吧。
大模型时代的机器学习系统
阶段一讨论式发言
现阶段大模型在各个领域都是绝对的热点问题无论是云端、端侧或者是车载 (Tesla FSD V12)各位嘉宾在实际工作或讨论中都会遇到有关大模型在训练、部署上的系统优化问题请大家轮流介绍一下目前遇到的主要挑战及解决方案。
王臣汉OpenBayes贝式计算在今年 6 月份启动大模型相关的单一模态的训练在 SuperCLUE 国内大模型创业公司榜单里排第五。从大模型的训练技术上考虑目前大家遇到的核心问题还是网络延迟基本上没有哪家芯片能在自己的集群上满负荷运行。
根据 OpenAI 官网的「scaling kubernetes to 2500 nodes」推算其训练 GPT-3 时 GPU 峰值利用率应该是没有超过 18%平均利用率约为 12- 15%相当于如果花费 1 亿搞一个集群这个集群里的投入只有 1200-1500 万起到了作用。从钱的角度上讲如何最大化地把数据并行、流水运行、向量并行做好其实是训练上面临的最大挑战。
部署/推理上的挑战在国内而言主要是工程问题比较复杂如果显存带宽不是很好PCIE 的优化其实就比较麻烦。OpenBayes贝式计算和很多上下游厂商都是采用 vLLM借此省去很多工程化的工作使推理上的工作量大幅下降。
金乐盛我们遇到的挑战主要分为两点
1. 因为 TVM、 MLC-LLM 在 7B 上面速度运行后有时候一张卡上存不下更大的比如 70 B 的模型我们上个季度尝试用 Tensor Parallelism 来解决这个问题目前这个方案已经开源了大家感兴趣可以试一下。
2. 还有个需求我们现在是只支持 batch size 1 的情况更适合于单个人用但是如果想起一个 Serving 会发现远远不如 vLLM这个我们现在也正在开发。
冯思远我也补充一点推理这块的主要趋势尚不明朗Transformer 虽然是目前大模型采用的主流的架构但从整体上看方法还有很多变动在这种情况下 Transformer 到底能不能一统 large model 还是个问号。所以在上层和底层存在不确定性的场景下可定制化、敏捷开发可能比传统 TVM 端到端编译更重要。在我看来大模型在推理和训练上还有很大进步空间。
阶段二针对性提问
随着美国禁令的加强限制已经从原本禁运训练卡进而影响到大模型推理卡的情况。短期来看目前大模型云端推理最具性价比的方案是什么允许使用游戏卡、图形卡的情况下国产 NPU、GPU 在推理领域填补空白还需要多少时间
王臣汉训练、推理模型的大小不同使用场景、业务负载不同很难得出统一的答案。
从边缘端的选型来看国产芯片瑞芯微 3588 是个不错的选项它性能、性价比都不错技术栈相对通用价格也比较便宜容易获得。此外英伟达 Orin 相当于阉割版 Ampere GPU如果按 q4f 16 预算规格Orin 从显存到推理上运行 7B、14B 甚至 34B 的模型都没有太大压力。
云端的选型英伟达随后披露了 H20、L20 和 L2 这三款片英伟达官方给到的消息称在大模型的实际推理层面大概是 L40 的70%-80%A6000 虽然后来也被增补进了禁售清单但由于库存量比较大。A6000 的好处就是显存大48 GB带 NVLink 一对装起来就能得到一个 130% 的 A100。
以我们跟国产芯片厂商接触得知大家确实都在针对 Attention 单一的 Backbone 做最大优化。
阶段二针对性提问
在国产芯片领域你认为在多长时间内能够有一家企业在推理端实现真正地落地并且能够瓜分英伟达的市场份额
王臣汉我觉得国产芯片企业大概能在 18 个月内吃掉英伟达 20% 以上的市场份额。这个判断的主要依据是我国利好政策以及美国持续制裁推动了国产化率提升。而且据我了解目前已经有国内厂商对英伟达 CUDA 的指令、API 兼容可以达到 92% 以上。所以我对于 18 个月的周期预判还是很有信心的。
阶段二针对性提问
蔚来为何会选择 TVMTVM 在自动驾驶领域又有哪些优势
吴钊首先肯定是因为我本人有 TVM 技术背景所以在构建团队时会优先关注 TVM。其次在实际项目中考量技术是否合理的重要标准就是看它的架构是否能满足业务需求。
自动驾驶是一个很复杂的应用场景对架构的要求也更加严苛在选择技术路线的时候需要综合考虑项目需求与项目周期。对于蔚来的自动驾驶业务而言第一款车型 ET7 计划在 2022 年 3 月开始交付当时我们的团队只有半年时间来应对自动驾驶的复杂模型所以我们肯定要选择一个 End to End 的方案当时很多友商使用的都是 TensorRT。TensorRT 的问题就是模型会越来越复杂、要求也会越来越奇怪从长远来看不太适合。
自动驾驶领域首先要考虑的问题就是如何在车端完全控制性能、精度等 metrics因为自动驾驶需要解决很多特殊情况算法团队大多在云端做模型训练然后部署到车端。在这个过程中如果使用 TensorRT 黑盒实际上无法完全掌握其量化算法而量化在我们看来是非常重要的。
此外MLIR 非常适合传统编译器但是前期需要投入比较多的时间考虑到当时我们有一个相对严苛的时间限制再加上要选择 End to End 的方案所以经过评估后我们也放弃了 MLIR。
最后对于自动驾驶而言整体部署的稳定性以及 CPU 低占用率至关重要因此我们需要选择一个能完全把控的方案能降低 CPU 占用率这是黑盒没办法实现的。
综合来看全白盒 TVM 是当时最适合我们的选项。
阶段三讨论式发言
目前无论是大模型还是自动驾驶模型都呈现出模型与硬件相互绑定的情况在这种情况下模型的算法、系统甚至芯片都会有共同的演化各位老师可以就此分享一些自己的看法。
王臣汉我认为 DSA 和 GPGPU 很可能互相依存谁也离不开谁未来芯片的体系结构也不会只有 Attention 这一种形式 近来社区里诞生了非常多新技术、新产品比如 Mistral 7B MoE、微软提出了 RetNet、多模态崛起等大语言模型统一整个体系结构可能只是从今年 3 月份到 10 月份的一个短暂的幻觉很可能 AI 未来的体系结构以及英伟达定义的这套范式还得延续一阵时间。但是英伟达不一定能一直在这件事上保持领先毫无疑问 Attention 会缩短其他追赶者和英伟达之间的距离比如 AMD MI300X 和其他不太方便公开提及名字的国产芯片。
从更多的趋势上来看体系结构上的演化即以 GPGPU 为核心的仍然会是一个长期的趋势。
吴钊 真实的项目经历中小改可以、大改很难也就是说在基本满足业务需求的前提下可以为了硬件做微调适配但是如果为了达到很好的效果必须用 Transformer但是某硬件对 Transformer 的支持非常差从业务角度来看我们不会部署到这款硬件上。这就是业界的现状。
谈到挑战我觉得肯定是会有挑战的包括前面提到的 RWKV 或 RNN不再是 Attention 二次方的复杂度而是线性的复杂度。这里也存在问题要想挑战成功光靠这个是不够的因为我们可以通过一些压缩或其他手段在有限场景下满足对效果的要求这种情况下 RWKV 的生态和效果都比不上 Transformer用户就没有理由放弃 Transformer 转而采用 RWKV。
因此在我看来算法才是最重要的驱动力在算法效果能达到的情况下考虑到性价比我们可能会考虑其他系统芯片。
金乐盛我的想法和吴老师很像我之前做过一段 Machine Learning也发过一些关于 AI 的 Paper 我发现做 ML 的人很少关注 latency 或者 system 相关的指标大家更关注 accuracy 的提升以及能否达到 SOTA。所以我觉得如果能出现一个性能完全超越 Transformer 的新模型那它肯定会成为主流所有硬件厂商及软件栈都会去做适配因此我认为算法还是占主导地位的。
王臣汉我们之前有估算过 RWKV参数规模比较大时它的训练成本可能会降到 1/3 左右。比如构建大规模机器学习模型时大家凭的是通讯工具和通讯从指数级降到线性级别后它的通讯需求会降低。
尽管 Attention 机制在 2017 年开始被人们注意但是通过爬取全球机器学习相关的论文并进行分析我们发现仅 2022 年一年发布的论文就超过了过去多年的总和。
毫无疑问 GPT-3 甚至 ChatGPT 就是这个 milestone甚至 ViT 诞生前基本没人相信 Attention 能用在视觉任务上。我们认知一个模型结构总是需要一个事件证明其有效性要么参数规模巨大有效要么这个机制在某类任务上 SOTA。回过头来看 RWKVRWKV 之所以到现在还没有展现出超越 Attention 的潜力很可能就是因为投入预算上的巨大差距RWKV 的潜力还远没有被证明出来。
我认为应该在现有的 Backbone 基础上预测 Attention 之后的 Backbone目前看起来 RWKV 和微软的 RetNet 是有这个潜力的。
阶段三讨论式发言
未来大模型部署是以端侧为主还是以云端为主
吴钊 我认为未来 3-5 年内会以端侧为主首先大模型的产品形态绝对不会只以 Chat 为主未来一定会出现非常多的垂类大模型。比如自动驾驶车、手机、微型机器人等都属于终端设备而且这种 Infer 的需求与计算量都是巨大的不太可能存在一个这样的云来支撑这么多的场景和设备。与此同时如自动驾驶等高度延迟敏感性的应用端到云的延迟也是必须考虑的一个因素
王臣汉大模型在云端部署的时间可能比我们想象的要长。前面大家基本认为 1-2 年内是云端为主5 年左右转移到端侧。我自己判断是 3-4 年内是云端 5-8 年是端测。
以 GPT-3.5 (20B) 为例它在 Q4 FP16 大概有 10 GB抛开费电不谈手机上用 10 GB 来存一个模型这在现在还不是所有人都能接受的事情。另外芯片制程发展的速度在放缓芯片体系结构也不会再像过去 20 年这样狂飙突进所以我并不认为云端模型能很快下放到端侧。
冯思远关于 Transformer 发展的预期我同意臣汉的观点5 年内基本上不太可能完全脱离云端但是如果有一个新模型出来它可能解决一部分的算力问题。如果要在手机端部署大模型其实并不缺算力以安卓手机为例它有一个 35 T 的矩阵单元但这个矩阵单元是单 batch因此在大模型推理的时候完全用不上。如果有一个模型能解决端测这种推理问题大概率是在模型发布后半年内解决至于这个模型什么时候发布还不太好下定论。
模型尤其是端侧的模型它的生产方式跟部署在云端的模型完全不一样它必须以公司为主导比如高通、苹果等厂商会设计一个模型专门针对手机或端侧去部署。如果要让你的模型具备它的效果那么不用超越 Transformer只要接近 Transformer 即可这个事情端侧更适合它一定与模型的设计、训练以及任务的差异性相关。
吴钊现在主流的做法是在云端推导大模型然后蒸馏出来一个小模型。从实际角度来看我们更多考虑如何支持业务研发一些垂直的应用不需要部署像 LLaMA 这么大的模型垂直场景情况下参数量可能 1-3B 就够了。
王臣汉今天我们讨论体系结构、讨论 Backbone 但没考虑数据规模。基于香侬前辈的信息学原理在一定矩阵的情况下承载的数据量是有限的更高效的压缩方式会一定带来损失。因此如果想要一定的性能——假设这个性能以 GPT-3.5 为基准刚才我们提到了 10 GB那么就算有再高效的 Backbone 出现我们都得相信它不会小于 7 GB。为了响应这个级别的模型设备的存储虽然还能扩大但它的计算量不会再小了。
前面我提到了制程的迭代速度正在放缓可能再过 5-10 年我们在单一尺寸芯片上能榨出的性能有可能还不及过去 3 年多这是我们现在能看到的事实。
2024 Meet TVM · 未来可期
2023 年 Q1-Q4我们在上海、北京、深圳成功举办了 4 场线下 meetup很开心能够在不同的城市汇聚起关注 AI 编译器的工程师为大家提供一个学习交流的平台。2024 年我们将继续开拓 TVM 城市地图诚挚邀请各位企业及社区伙伴们以各种形式参与共创无论是推荐讲师还是提供场地、茶歇我们都非常欢迎的。
让我们携手创造国内最活跃的 AI 编译器社区 没有观看嘉宾精彩演讲的小伙伴可以点击活动回顾 (上) | 2023 Meet TVM 系列活动完美收官查看完整录播~ 关注微信公众号「HyperAI超神经」后台回复关键字「TVM 年终聚会」获取嘉宾完整 PPT。 大家也可以备注「TVM 年终聚会」扫码加入活动群获取最新的活动资讯哦~ 主办方及合作伙伴 作为本次活动的主办方MLC.AI 社区成立于 2022 年 6 月并由 Apache TVM 主要发明者、机器学习领域著名的青年学者陈天奇带领团队上线了 MLC 线上课程系统介绍了机器学习编译的关键元素以及核心概念。
2022 年 11 月在 MLC.AI 社区志愿者的共同努力下首个完整的 TVM 中文文档上线并成功托管至 HyperAI超神经官网进一步为对机器学习编译感兴趣的国内开发者提供了接触并学习一门新技术的基础设置——文档。 MLC 线上课程https://mlc.ai/TVM 中文文档https://tvm.hyper.ai/ HyperAI超神经国内领先的人工智能及高性能计算社区致力于为广大国内开发者提供数据科学领域的优质公共资源截至目前已为 1200 公开数据集提供国内下载节点支持 300 人工智能及高性能计算相关的词条查询现已收录数百个行业词条及案例上线含大模型在内的数千个公共数据集和教程 并托管了完整的 TVM 中文文档。访问官网https://hyper.ai/ OpenBayes贝式计算是国内领先的高性能计算服务提供商通过为新一代异构芯片嫁接经典软件生态及机器学习模型进而为工业企业及高校科研提供更加快速、易用的数据科学计算产品其产品已被数十家大型工业场景或头部科研院所所采用。访问官网https://openbayes.com/ 厘米空间厦门是招商局集团旗下的专业创新园区管理公司在厦门运营「厘米空间 CM Space」专业孵化器。扎根于东南沿海依托招商局集团的交通、城市与园区综合开发和金融三大主业优势重点为人工智能领域创业企业提供发展初期最为急需的应用场景、模式验证、种子期客户等资源支持协助人工智能公司高效孵化。 上海云基地上海市云计算创新基地、上海市大数据创新基地是国内起步较早的国家级专业孵化器推动云计算产业从 0 到 1 起步发展。以基金基地平台的模式以数字经济产业为核心聚焦云计算、云原生、大数据与人工智能、数字医疗等细分领域集聚和孵化了近千家海内外优秀企业。通过连接技术、用户、资本、服务四个生态持续举办「场景创新实验室]和「数字经济上市预备营」构建数字经济产业加速器。 归心谷——全球企业跨境一站式服务平台致力于全方位打造集创业孵化基地、归心谷人才、归心谷企业服务、归心谷文化传播等为核心内容的市场化企业服务平台。联动北美、欧洲、亚洲等海外智库与市场资源提供产业园区和孵化基地运营、创业培训、企业咨询服务、投融资、海外人才归国发展、全球创新创业活动等服务同时帮助中国创业企业出海。归心谷以发现人才培养人才成就人才为目标帮助优秀青年人才实现梦想形成海归创业和人才培养的归心之地。