当前位置: 首页 > news >正文

提供网站建设方案ppt绍兴seo外包公司

提供网站建设方案ppt,绍兴seo外包公司,网站建设图标合集,做网站底部不显示中文怎么回事在AutoDL上部署Yi-34B大模型 Yi介绍 Yi 系列模型是 01.AI 从零训练的下一代开源大语言模型。Yi 系列模型是一个双语语言模型#xff0c;在 3T 多语言语料库上训练而成#xff0c;是全球最强大的大语言模型之一。Yi 系列模型在语言认知、常识推理、阅读理解等方面表现优异。 …在AutoDL上部署Yi-34B大模型 Yi介绍 Yi 系列模型是 01.AI 从零训练的下一代开源大语言模型。Yi 系列模型是一个双语语言模型在 3T 多语言语料库上训练而成是全球最强大的大语言模型之一。Yi 系列模型在语言认知、常识推理、阅读理解等方面表现优异。 Yi-34B-Chat 模型在 AlpacaEval Leaderboard 排名第二仅次于 GPT-4 Turbo超过了 GPT-4、Mixtral 和 Claude 等大语言模型数据截止至 2024 年 1 月Yi-34B 模型在 Hugging Face Open LLM Leaderboard预训练与 C-Eval 基准测试中荣登榜首在中文和英文语言能力方面均超过了其它开源模型例如Falcon-180B、Llama-70B 和 Claude数据截止至 2023 年 11 月。 部署步骤 硬件要求 部署 Yi 系列模型之前确保硬件满足以下要求。 模型最低显存推荐GPU示例Yi-6B-Chat15 GBRTX 3090 RTX 4090 A10 A30Yi-6B-Chat-4bits4 GBRTX 3060 RTX 4060Yi-6B-Chat-8bits8 GBRTX 3070 RTX 4060Yi-34B-Chat72 GB4 x RTX 4090 A800 (80GB)Yi-34B-Chat-4bits20 GBRTX 3090 RTX 4090 A10 A30 A100 (40GB)Yi-34B-Chat-8bits38 GB2 x RTX 3090 2 x RTX 4090 A800 (40GB) 运行实例 进入终端 安装 modelscope pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modelscope进入ipython终端 ipython 下载模型 from modelscope.hub.snapshot_download import snapshot_download model_dir snapshot_download(01ai/Yi-34B-Chat-4bits, cache_dirautodl-tmp, revisionmaster, ignore_file_pattern.bin)从modelscope上下载Yi-34B-Chat-4bits模型,存放目录为autodl-tmp 版本是master,去除后缀为.bin的文件,这里只需要下载safetensors后缀的模型 安装 vllm vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库用于 LLM 推理和服务可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」有效地管理注意力键和值。 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm开启 openai 兼容的服务 python -m vllm.entrypoints.openai.api_server \--model /root/autodl-tmp/01ai/Yi-34B-Chat-4bits \--served-model-name 01ai/Yi-34B-Chat-4bits \--trust-remote-code \--max-model-len 2048 -q awq – model : 指定模型的位置 – served-model-name : 指定模型的名称 – trust-remote-code : 接收它执行的代码 – max-model-len : 接收的上下文大小 -q awq : 量化方式为awq 查看资源占用 nvidia-smi显示占用的23G显存 测试服务 curl http://localhost:8000/v1/completions \ -H Content-Type: application/json \ -d {model: 01ai/Yi-34B-Chat-4bits,prompt: San Francisco is a,max_tokens: 7,temperature: 0 }执行 benchmark 测试 关闭之前的API Server服务 开启AutoDL的学术加速 source /etc/network_turbo 下载vllm 源码 git clone https://github.com/vllm-project/vllmcd vllm/benchmarks 测试 python benchmark_throughput.py \--backend vllm \--input-len 128 --output-len 512 \--model /root/autodl-tmp/01ai/Yi-34B-Chat-4bits \-q awq --num-prompts 100 --seed 1100 \--trust-remote-code \--max-model-len 2048gradio 的 chat 组件 安装openai pip install openai -U安装gradio pip install gradio3.41创建一个python脚本 chat.py from openai import OpenAI import gradio as gr# Set OpenAIs API key and API base to use vLLMs API server. openai_api_key EMPTY openai_api_base http://localhost:8000/v1# 创建一个 OpenAI 客户端用于与 API 服务器进行交互 client OpenAI(api_keyopenai_api_key,base_urlopenai_api_base, )def predict(message, history):# 将聊天历史转换为 OpenAI 格式history_openai_format [{role: system, content: 你是个靠谱的 AI 助手尽量详细的解答用户的提问。}]for human, assistant in history:history_openai_format.append({role: user, content: human })history_openai_format.append({role: assistant, content:assistant})history_openai_format.append({role: user, content: message})# 创建一个聊天完成请求并将其发送到 API 服务器stream client.chat.completions.create(model01ai/Yi-34B-Chat-4bits, # 使用的模型名称messages history_openai_format, # 聊天历史temperature0.8, # 控制生成文本的随机性streamTrue, # 是否以流的形式接收响应extra_body{repetition_penalty: 1, stop_token_ids: [7]})# 从响应流中读取并返回生成的文本partial_message for chunk in stream:partial_message (chunk.choices[0].delta.content or )yield partial_message# 创建一个聊天界面并启动它shareTrue 让 gradio 为我们提供一个 debug 用的域名 gr.ChatInterface(predict).queue().launch(shareTrue)开启一个新的终端执行命令: python chat.py 稍等它在终端给我们生成一个 xxxx.gradio.live 的域名访问这个域名就可以进行测试了。 如果gradio无法生成可分享的外部连接 解决办法 : 1.下载此文件https://cdn-media.huggingface.co/frpc-gradio-0.2/frpc_linux_amd64 如果auto服务器下载不到,可以手动上传 2.将下载的文件重命名为frpc_linux_amd64_v0.2 mv frpc_linux_amd64 frpc_linux_amd64_v0.2 3.将文件移动到以下位置/root/miniconda3/lib/python3.8/site-packages/gradio cp frpc_linux_amd64_v0.2 /root/miniconda3/lib/python3.8/site-packages/gradio 4.给予执行权限 chmod x /root/miniconda3/lib/python3.8/site-packages/gradio/frpc_linux_amd64_v0.2效果 3090 运行起来之后,问题问到第二个之后就会OOM,显存几乎全部占满
http://www.zqtcl.cn/news/680647/

相关文章:

  • 百度推广网站建设费利用阿里云虚拟主机做网站
  • 吐槽做网站论坛模板
  • 广水住房和城乡建设部网站简单网页制作代码html
  • 建设网站找什么仿门户网站
  • 贵阳手机网站建设公司沈阳图书设计公司
  • 哪里做网站比较好在哪里注册域名
  • 做搜狗pc网站软件下载广告设计与制作学什么
  • 软件工程 旅游网站开发er图昆山网站建设网站建设
  • 网站下载的网页修改下面版权所有企业建设营销型网站的目的有
  • 官方重大项目建设库网站手机ps软件如何做ppt下载网站
  • 全国加盟网站大全海尔网站建设目标
  • wordpress 企业站模版自己做视频网站可以吗
  • 建设电子商务网站的方法有广东网站开发收费
  • php网站页面转wordpress网站广告代码
  • 在线网站建设教程网站版面布局结构
  • 网站建设提议网站建设怎么在图片上加字
  • 网站模板但没有后台如何做网站家政网站开发
  • 自己办网站审批流程网页设计师的发展路径
  • 什么叫网站地图百度竞价排名费用
  • 企业网站建设顾问wordpress如何用API采集
  • win7网站后台无法编辑vr网站建设
  • 做头发个人网站制作素材dw中做网站的步骤
  • 学校网站做几级等保网页制作与维护
  • 十堰外贸网站建设松滋做网站
  • 网站导航条青浦徐泾网站建设
  • 厦门网站建设一般多少钱店铺域名是什么意思
  • 网站关键词搜索排名怎么做雅奇小蘑菇做网站好不好用
  • 手机网站案例建设网站地图素材
  • 企业网站制作比较好的如何设计一个网页首页代码
  • 维护网站成本网站建设进度图