电影网站建设费用,西宁网站运营公司,网站首页模板制作,网站设计对网站建设有哪些意义?引言
面对魔搭 ModelScope 社区提供的海量模型#xff0c;用户希望快速进行选型并生产使用起来#xff0c;但在此之前#xff0c;却一定会面临算力管理难、模型部署难等一系列问题#xff0c;那么能否实现快速把选定的模型部署在云端功能强大的 GPU 上#xff0c;由云端负…
引言
面对魔搭 ModelScope 社区提供的海量模型用户希望快速进行选型并生产使用起来但在此之前却一定会面临算力管理难、模型部署难等一系列问题那么能否实现快速把选定的模型部署在云端功能强大的 GPU 上由云端负责服务扩展保护和监控模型服务同时免于运维和管理云上算力等基础设施呢魔搭ModelScope 函数计算 FC 给了这样一种方案。
魔搭函数计算,一键部署模型上云
魔搭 ModelScope 社区模型服务 SwingDeploy 支持将模型从魔搭社区的模型库一键部署至用户阿里云账号的云资源上并根据模型资源要求为用户自动推荐最佳部署配置。让开发者可以将魔搭开源模型一键部署至阿里云函数计算当选择模型并部署时系统会选择对应的机器配置。按需使用可以在根据工作负载动态的减少资源节约机器使用成本。5分钟完成从开源模型至模型推理 API 服务的生产转换。
得益于阿里云函数计算的产品能力魔搭 SwingDeploy 后的模型推理 API 服务默认具备极致弹性伸缩缩零能力、GPU 虚拟化最小 1GB 显存粒度、异步调用能力、按用付费、闲置计费等能力这些能力帮助算法工程师大大加快了魔搭开源模型投入生产的生命周期。
以百川智能的大型语言模型为例
接下来我们将演示如何利用魔搭 ModelScope 社区 的一键部署技术SwingDeploy选取百川智能的大语言模型LLM为案例将其部署至函数计算平台并启用闲置计费。我们将提供一系列详尽的步骤指南
准备工作
打开 ModelScope 官网登录/注册账号 2.绑定阿里云账号后可使用在线调试、训练及部署等能力
模型部署
导航至模型卡片请在魔搭 ModelScope 社区的模型库页面进行搜索定位到baichuan2-7b-chat-4bits并点击进入该模型的详细页面。为了便捷您还可以通过提供的URL直接访问该模型卡片。 执行快速部署操作请在模型卡片的右上角找到并点击“部署”按钮并从下拉菜单中选择“快速部署SwingDeploy”随后选择“函数计算FC”作为目标部署平台。 在随后出现的弹窗中您将有机会对模型的部署参数进行详细配置这包括选择适当的模型版本、部署的地理区域、显卡型号以及需要的显存容量等。完成这些必要设置后请点击“一键部署”以初始化部署过程。 注意目前函数计算 GPU 的闲置计费模式只适用于杭州和上海地区并且仅限于整卡使用。因此在配置部署选项时请确保地域设置为杭州或上海并选择相应的显存容量即 16GB 对应于T4显卡型号或 24GB 对应于A10 显卡型号。 确认部署成功成功执行“一键部署”后ModelScope 将开始将模型部署到函数计算云服务此过程通常需要1至5分钟完成。部署完毕时您可返回 ModelScope 主页导航至“模型服务”下的“部署服务SwingDeploy”板块以确认部署状态显示为“部署成功”。 启用预留闲置模式
将模型服务配置为预留模式您可能已经发现ModelScope 会默认使用按量模式进行部署为了优化成本和性能您需要将模型服务配置为预留模式。这可以通过点击“服务模式切换”至“预留模式”来实现。 激活预留模式的闲置计费功能 完成服务模式的切换至“预留模式”之后您需要再次点击服务模式的切换按钮。随后在弹出的窗口中选择“更改配置”这将引导您跳转至函数计算控制台。在控制台的“函数弹性管理”页面激活“闲置计费选项并保存设置以启用函数计算 GPU 函数的闲置计费模式。这将有助于您在保留资源的同时优化成本效益。 在成功激活闲置计费模式后在函数的弹性管理界面中您应该能够看到已明确标注“闲置计费模式已开启”。此时当“当前实例数”与“目标预留实例数”一致时表明所有的闲置实例均已成功启动并处于待命状态。 开始使用
根据魔搭 ModelScope 模型服务里的立即使用说明我们可以顺利调用到该次部署的 LLM 模型
LLM 一览表 由于当前社区以及多种层出不穷的大语言模型LLM本表格仅列举了当前热度较高的常用 LLM 基础模型在其之上的微调模型同样是可以部署至函数计算平台并开启闲置预留模式。 如果您有任何反馈或疑问欢迎加入钉钉用户群钉钉群号11721331与函数计算工程师即时沟通。
模型系列LLM模型通义千问- Qwen-14B - Qwen-14B-Chat- Qwen-14B-Chat-Int8- Qwen-14B-Chat-Int4- Qwen-7B- Qwen-7B-Chat- Qwen-7B-Chat-Int8- Qwen-7B-Chat-Int4- Qwen-1.8B- Qwen-1.8B-Chat- Qwen-1.8B-Chat-Int4百川智能- Baichuan2-13B-Base- Baichuan2-13B-Chat- Baichuan2-13B-Chat-4bits- Baichuan2-7B-Base- Baichuan2-7B-Chat- Baichuan2-7B-Chat-4bits- Baichuan-13B-Chat- Baichuan-7B智谱.AI- ChatGLM3-6B- ChatGLM2-6B
更多可支持的开源 LLM 模型请参考 ModelScope。
函数计算大幅降低用户 GPU 成本
随着 AGI 技术的迅速发展各类型企业越来越多地依赖于 GPU 计算资源来推动他们的业务增长。对于正在使用或计划部署大型语言模型LLM等先进技术的客户来说成本效率是一个重要的考虑因素。函数计算推出 GPU 闲置计费功能在保障性能的前提下可以帮助您大幅降低 GPU 的成本开销。
GPU 闲置计费 - 实时/准实时推理服务部署方式的革新
函数计算 GPU 闲置计费功能是一个行业领先的创新它允许用户在不牺牲性能的前提下以更低的成本使用 GPU 资源。这个新功能旨在解决传统 GPU 计费模式中的一个常见问题即便 GPU 实例在没有服务请求时用户仍然需要支付全部的资源消耗费用。现在通过函数计算后台的显存管理函数计算实例的 GPU 资源只有当请求到来时才会被激活当请求完成后GPU 资源自动被函数计算平台冻结用户无需为高昂的 GPU 使用费用买单。
部署 LLM 的成本效益分析
传统地部署大型语言模型LLM可能需要昂贵的 GPU 支持尤其在需要大量计算资源时。但请求处理并不是每时每刻都处于活跃状态势必存在流量的潮汐现象后端的计算资源会出现空载导致成本的浪费。借助函数计算 GPU 闲置计费功能用户的开销将会根据实际计算负载动态调整。
在函数计算的 GPU 闲置模式下当实例活跃时 GPU 单价为0.00011元/GB * 秒当实例进入闲置模式后闲置 GPU 单价为0.000009/GB * 秒。闲置下的使用成本仅为活跃状态的1/10。
让我们以一个实际的例子来说明这种计费方式的成本效果
某 AI 初创公司使用 LLM 微调模型提供客服机器人业务客户需要确保客服机器人业务能够快速响应用户的请求因此对于冷启动时间有较高的要求所以无法选择按量付费模式他们选择了预留实例模式来避免冷启动问题但同时也发现在一个小时内GPU 资源并不是满载的真正发生在 GPU 实例上的请求时长总计总计只有20分钟进而他们选择了函数计算业内首创的闲置预留模式。
基于这样典型的场景根据函数计算 GPU 的计费模式我们来算这样一笔账
仅使用 GPU 实例预留模式 该客户会选择在业务高峰时期预留10个16GB显存的实例为业务提供推理请求GPU 实例使用单价GPU 部分的资源开销约为6.34元/时/实例 使用 GPU 实例预留模式 闲置计费后 同样预留10个16GB显存的实例为业务提供推理请求我们以40分钟闲置20分钟活跃来进行计算总GPU 部分资源成本约为2.46元/时/实例
以上面的例子进行成本的推演我们可以看到闲置计费模式可以为**节省60%**的 GPU 资源成本。
开通函数计算获试用额度
函数计算为首次开通服务的用户提供免费试用额度试用额度的有效期为3个月自购买之日起超出试用额度的部分均会计入按量付费。试用额度的详细信息如下。
GPU试用额度前100万GB*秒GPU资源使用免费。vCPU试用额度前50万vCPU*秒vCPU资源使用免费。内存试用额度前200万GB*秒内存资源使用免费。函数调用试用额度前800万次函数调用免费。
除以上试用额度2023年12月19日0时之后函数计算还为首次开通服务的用户发放有效期3个月每个月100 GB的CDT公网流量试用额度。
如何部署使用 说明 【公测 - 申请使用】Serverless GPU 闲置计费当前为邀测功能如需体验请提交公测申请或联系客户经理申请。 您仅需登录至函数计算服务控制台访问对应函数的弹性管理界面并激活闲置计费功能。
相关链接汇总
魔搭 ModelScope 社区官网https://modelscope.cn/home函数计算产品官网https://www.aliyun.com/product/fc一键部署新手操作指南https://developer.aliyun.com/article/1307460通义千问模型系列https://modelscope.cn/organization/qwen智谱.AI系列https://modelscope.cn/organization/ZhipuAI百川模型https://modelscope.cn/organization/baichuan-inc函数计算闲置GPU实例公测申请https://survey.aliyun.com/apps/zhiliao/dXfRVPEm- 更多内容关注 Serverless 微信公众号IDserverlessdevs汇集 Serverless 技术最全内容定期举办 Serverless 活动、直播用户最佳实践。