当前位置: 首页 > news >正文

北京网站建设laitangPK10如何自己做网站

北京网站建设laitang,PK10如何自己做网站,传奇页游平台,英语培训机构前十名随着大模型的爆火#xff0c;投入到生产环境的模型参数量规模也变得越来越大#xff08;从数十亿参数到千亿参数规模#xff09;#xff0c;从而导致大模型的推理成本急剧增加。因此#xff0c;市面上也出现了很多的推理框架#xff0c;用于降低模型推理延迟以及提升模型… 随着大模型的爆火投入到生产环境的模型参数量规模也变得越来越大从数十亿参数到千亿参数规模从而导致大模型的推理成本急剧增加。因此市面上也出现了很多的推理框架用于降低模型推理延迟以及提升模型吞吐量。 本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第一篇将简要概述TensorRT-LLM的基本特性。 另外我撰写的大模型相关的博客及配套代码均整理放置在Githubllm-action有需要的朋友自取。 TensorRT-LLM 诞生的背景 第一、大模型参数量大推理成本高。以10B参数规模的大模型为例使用FP16数据类型进行部署至少需要20GB以上模型权重KV缓存等。 第二、纯TensorRT使用较复杂ONNX存在内存限制。深度学习模型通常使用各种框架如PyTorch、TensorFlow、Keras等进行训练和部署而每个框架都有自己的模型表示和存储格式。因此开发者通常使用 ONNX 解决深度学习模型在不同框架之间的互操作性问题。比如TensorRT 就需要先将 PyTorch 模型转成 ONNX然后再将 ONNX 转成 TensorRT。除此之外一般还需要做数据对齐因此需要编写 plugin通过修改 ONNX 来适配 TensorRT plugin。另外 ONNX 使用Protobuf作为其模型文件的序列化格式。Protobuf是一种轻量级的、高效的数据交换格式但它在序列化和反序列化大型数据时有一个默认的大小限制。在Protobuf中默认的大小限制是2GB。这意味着单个序列化的消息不能超过2GB的大小。当你尝试加载或修改超过2GB的ONNX模型时就会收到相关的限制提示。 第三、 纯FastTransformer使用门槛高。FastTransformer 是用 C 实现的同时它的接口和文档相对较少用户可能需要更深入地了解其底层实现和使用方式这对于初学者来说可能会增加学习和使用的难度。并且 FastTransformer 的生态较小可用的资源和支持较少这也会增加使用者在理解和应用 FastTransformer 上的困难。因此与 Python 应用程序的部署和集成相比它可能涉及到更多的技术细节和挑战。这可能需要用户具备更多的系统级编程知识和经验以便将 FastTransformer 与其他系统或应用程序进行无缝集成。 综上所述TensorRT-LLM 诞生了。 TensorRT-LLM 简介 TensorRT-LLM 为用户提供了易于使用的 Python API 来定义大语言模型 (LLM) 并构建 TensorRT 引擎以便在 NVIDIA GPU 上高效地执行推理。 TensorRT-LLM 还包含用于创建执行这些 TensorRT 引擎的 Python 和 C 运行时组件。 此外它还包括一个用于与 NVIDIA Triton 推理服务集成的后端 同时 使用 TensorRT-LLM 构建的模型可以使用使用张量并行和流水线并行在单 GPU 或者多机多 GPU 上执行。 TensorRT-LLM 的 Python API 的架构看起来与 PyTorch API 类似。 它为用户提供了包含 einsum、softmax、matmul 或 view 等函数的 functional 模块。 layers 模块捆绑了有用的构建块来组装 LLM 比如 Attention 块、MLP 或整个 Transformer 层。 特定于模型的组件例如 GPTAttention 或 BertAttention可以在 models 模块中找到。 为了最大限度地提高性能并减少内存占用TensorRT-LLM 允许使用不同的量化模式执行模型。 TensorRT-LLM 支持 INT4 或 INT8 权重量化也称为仅 INT4/INT8 权重量化以及 SmoothQuant 技术的完整实现。同时TensorRT-LLM 优化了一系列知名模型在 NVIDIA GPU 上的性能。 支持的设备 TensorRT-LLM 在以下 GPU 上经过严格测试 H100 L40S A100/ A30 V100 (试验阶段) 注意如果是上面未列出 GPUTensorRT-LLM 预计可在基于 Volta、Turing、Ampere、Hopper 和 Ada Lovelace 架构的 GPU 上工作。但是可能存在某些限制。 关键特性 支持多头注意力( Multi-head AttentionMHA) 支持多查询注意力 ( Multi-query AttentionMQA) 支持分组查询注意力( Group-query AttentionGQA) 支持飞行批处理In-flight Batching Paged KV Cache for the Attention 支持 张量并行 支持 流水线并行 支持仅 INT4/INT8 权重量化 (W4A16 W8A16) 支持 SmoothQuant 量化 支持 GPTQ 量化 支持 AWQ 量化 支持 FP8 支持贪心搜索Greedy-search 支持波束搜索Beam-search 支持旋转位置编码RoPE 支持的模型 Baichuan Bert Blip2 BLOOM ChatGLM-6B ChatGLM2-6B Falcon GPT GPT-J GPT-Nemo GPT-NeoX LLaMA LLaMA-v2 MPT OPT SantaCoder StarCoder 支持的精度 TensorRT-LLM 支持各种数值精度。 但对其中一些数字精度的支持需要特定的GPU架构。 FP32FP16BF16FP8INT8INT4Volta (SM70)YYNNYYTuring (SM75)YYNNYYAmpere (SM80, SM86)YYYNYYAda-Lovelace (SM89)YYYYYYHopper (SM90)YYYYYY 对于目前发布的v0.5.0并非所有模型都实现了对 FP8 和量化数据类型INT8 或 INT4的支持具体如下所示。 ModelFP32FP16BF16FP8W8A8 SQW8A16W4A16W4A16 AWQW4A16 GPTQBaichuanYYY..YY..BERTYYY......BLOOMYYY.YYY..ChatGLMYYY......ChatGLM-v2YYY......FalconYYY......GPTYYYYYYY..GPT-JYYYYYYYY.GPT-NeMoYYY......GPT-NeoXYYY.....YLLaMAYYY.YYYYYLLaMA-v2YYYYYYYYYOPTYYY......SantaCoderYYY......StarCoderYYY...... TensorRT-LLM 的性能 注意 下表中的数据作为参考进行提供以帮助用户验证观察到的性能。这不是 TensorRT-LLM 提供的峰值性能。 不同模型基于 FP16 在 A100 GPUs 上的吞吐量 ModelBatch SizeTP (1)Input LengthOutput LengthThroughput (out tok/s)GPT-J 6B6411281283,679GPT-J 6B32112820481,558GPT-J 6B3212048128526GPT-J 6B16120482048650LLaMA 7B6411281283,486LLaMA 7B32112820481,459LLaMA 7B3212048128529LLaMA 7B16120482048592LLaMA 70B6441281281,237LLaMA 70B64412820481,181LLaMA 70B6442048128272LLaMA 70B64420482048738Falcon 180B648128128929Falcon 180B6481282048923Falcon 180B6482048128202 不同模型基于 FP16 在 A100 GPUs 上的首Token延迟 针对批量大小为 1 时第一个Token延迟的数据代表终端用户感知在线流任务的延迟。 ModelBatch SizeTP (1)Input Length1st Token Latency (ms)GPT-J 6B1112812GPT-J 6B112048129LLaMA 7B1112816LLaMA 7B112048133LLaMA 70B1412847LLaMA 70B142048377Falcon 180B1812861Falcon 180B182048509 结语 本文简要概述了TensorRT-LLM诞生的原因以及基本特征。码字不易如果觉得有帮助欢迎点赞收藏加关注。 参考文档 https://github.com/NVIDIA/TensorRT-LLM/tree/v0.5.0 https://github.com/NVIDIA/TensorRT-LLM/blob/v0.5.0/docs/source/precision.md https://github.com/NVIDIA/TensorRT-LLM/blob/v0.5.0/docs/source/performance.md
http://www.zqtcl.cn/news/882326/

相关文章:

  • 移动端网站怎么制作asp做的网站如何发布
  • 做的网站用户密码在哪里找凡科申请的网站和qq空间一样吗
  • 如何自己做网站发布到服务器上面wordpress没有幻灯片
  • 闽侯县建设局网站企业建设网站例文
  • 家居类企业响应式网站搭建电商系统
  • 临沂哪里做网站比较好中国建设银行企业信息门户网站
  • 低价建网站提高网站订单转化率
  • 家居网站应该怎么做网站seo推广软件
  • 旅游网站建设报告关键词优化排名价格
  • 上海网站开发caiyiduo微信建微网站
  • 做网站和做网店哪个好用cms做单页网站怎么做
  • 阿里云有主体新增网站可以免费制作网页的网站
  • 网站备案幕布拍照是什么莱芜网络推广公司服务
  • 招个网站建设维护国家高新技术企业官网
  • 建设医疗网站做企业官网哪家公司好
  • 网站建设常见问题及解决办法站长网站大全
  • 二手网站建设模块500做网站
  • 建设展示型网站公司哪家好广告制作费和广告服务费区别
  • 网站排版设计欣赏网站建设制作设计seo优化南宁
  • 长春网站建设公司十佳wordpress在哪注册
  • 手机号码定位网站开发世界知名外贸网站
  • 广西南宁网站建设排行榜建设一个视频网站己18
  • 以小说名字做网站的小说网最热门的网页游戏排行
  • 微网站菜单商品详情页面模板html
  • 免费word模板网站WordPress用户聊天功能
  • 网站显示图片标记wordpress文章分类div布局
  • 专业网站建设公司哪家专业阿里云二级域名建设网站
  • 返利网站怎么做手机网页前端开发
  • 做家教去什么网站人际网络网络营销是什么
  • 潮州外贸网站建设网站qq在线状态