当前位置：首页 > news >正文

西平企业网站建设深圳市哪里最繁华

news 2025/11/14 21:17:04

西平企业网站建设,深圳市哪里最繁华,vue可视化开发工具,网站开发流程包括需求分析自从ChatGPT发布以来#xff0c;国内外的开源大模型如雨后春笋般成长#xff0c;但是对于很多企业和个人从头训练预训练模型不太现实#xff0c;即使微调开源大模型也捉襟见肘#xff0c;那么直接部署这些开源大模型服务于企业业务将会有很大的前景#xff0c;本文将介绍七… 自从ChatGPT发布以来国内外的开源大模型如雨后春笋般成长但是对于很多企业和个人从头训练预训练模型不太现实即使微调开源大模型也捉襟见肘那么直接部署这些开源大模型服务于企业业务将会有很大的前景本文将介绍七中主流的LLM推理和服务开源库。下面首先来总结一下这些框架的特点如下表所示 LLM推理有很多框架各有其特点下面分别介绍一下表中七个框架的关键点 vLLM[1]适用于大批量Prompt输入并对推理速度要求高的场景 Text generation inference[2]依赖HuggingFace模型并且不需要为核心模型增加多个adapter的场景 CTranslate2[3]可在CPU上进行推理 OpenLLM[4]为核心模型添加adapter并使用HuggingFace Agents尤其是不完全依赖PyTorch Ray Serve[5]稳定的Pipeline和灵活的部署它最适合更成熟的项目 MLC LLM[6]可在客户端边缘计算例如在Android或iPhone平台上本地部署LLM DeepSpeed-MII[7]使用DeepSpeed库来部署LLM 下面我们在内存容量为40GB的A100 GPU上并且使用LLaMA-1 13b模型因为列表中的所有库都支持它进行七个部署框架的对比。一、vLLM vLLM的吞吐量比HuggingFace TransformersHF高14x-24倍比HuggingFace Text Generation InferenceTGI高2.2x-2.5倍。离线批量推理 # pip install vllmfrom vllm import LLM, SamplingParamsprompts [ Funniest joke ever:, The capital of France is, The future of AI is,]sampling_params SamplingParams(temperature0.95, top_p0.95, max_tokens200)llm LLM(modelhuggyllama/llama-13b)outputs llm.generate(prompts, sampling_params)for output in outputs: prompt output.prompt generated_text output.outputs[0].text print(fPrompt: {prompt!r}, Generated text: {generated_text!r}) API Server # Start the server:python -m vllm.entrypoints.api_server --env MODEL_NAMEhuggyllama/llama-13b# Query the model in shell:curl http://localhost:8000/generate \ -d { prompt: Funniest joke ever:, n: 1, temperature: 0.95, max_tokens: 200 } 功能 Continuous batching[9]有iteration-level的调度机制每次迭代batch大小都有所变化因此vLLM在大量查询下仍可以很好的工作。PagedAttention[10]受操作系统中虚拟内存和分页的经典思想启发的注意力算法这就是模型加速的秘诀。优点文本生成的速度实验多次发现vLLM的推理速度是最快的高吞吐量服务支持各种解码算法比如parallel sampling, beam search等与OpenAI API兼容如果使用OpenAI API只需要替换端点的URL即可缺点添加自定义模型虽然可以合并自己的模型但如果模型没有使用与vLLM中现有模型类似的架构则过程会变得更加复杂。例如增加Falcon的支持这似乎很有挑战性缺乏对适配器LoRA、QLoRA等的支持当针对特定任务进行微调时开源LLM具有重要价值。然而在当前的实现中没有单独使用模型和适配器权重的选项这限制了有效利用此类模型的灵活性。缺少权重量化有时LLM可能不需要使用GPU内存这对于减少GPU内存消耗至关重要。这是LLM推理最快的库。得益于其内部优化它显著优于竞争对手。尽管如此它在支持有限范围的模型方面确实存在弱点。使用vLLM的开发路线可以参考https://github.com/vllm-project/vllm/issues/244 二、Text generation inference Text generation inference是用于文本生成推断的Rust、Python和gRPC服务器在HuggingFace中已有LLM 推理API使用。使用docker运行web server mkdir datadocker run --gpus all --shm-size 1g -p 8080:80 \-v data:/data ghcr.io/huggingface/text-generation-inference:0.9 \ --model-id huggyllama/llama-13b \ --num-shard 1 查询实例 # pip install text-generationfrom text_generation import Clientclient Client(http://127.0.0.1:8080)prompt Funniest joke ever:print(client.generate(prompt, max_new_tokens17 temperature0.95).generated_text) 功能内置服务评估可以监控服务器负载并深入了解其性能使用flash attention和v2和Paged attention优化transformer推理代码并非所有模型都内置了对这些优化的支持该技术可以对未使用该技术的模型可以进行优化优点所有的依赖项都安装在Docker中会得到一个现成的环境支持HuggingFace模型轻松运行自己的模型或使用任何HuggingFace模型中心对模型推理的控制该框架提供了一系列管理模型推理的选项包括精度调整、量化、张量并行性、重复惩罚等缺点缺乏对适配器的支持需要注意的是尽管可以使用适配器部署LLM可以参考https://www.youtube.com/watch?vHI3cYN0c9ZU但目前还没有官方支持或文档从源代码RustCUDA内核编译对于不熟悉Rust的人将客户化代码纳入库中变得很有挑战性文档不完整所有信息都可以在项目的自述文件中找到。尽管它涵盖了基础知识但必须在问题或源代码中搜索更多细节使用Text generation inference的开发路线可以参考https://github.com/huggingface/text-generation-inference/issues/232 三、CTranslate2 CTranslate2是一个C和Python库用于使用Transformer模型进行高效推理。转换模型 pip install -qqq transformers ctranslate2# The model should be first converted into the CTranslate2 model format:ct2-transformers-converter --model huggyllama/llama-13b --output_dir llama-13b-ct2 --force 查询实例 import ctranslate2import transformersgenerator ctranslate2.Generator(llama-13b-ct2, devicecuda, compute_typefloat16)tokenizer transformers.AutoTokenizer.from_pretrained(huggyllama/llama-13b)prompt Funniest joke ever:tokens tokenizer.convert_ids_to_tokens(tokenizer.encode(prompt))results generator.generate_batch( [tokens], sampling_topk1, max_length200, )tokens results[0].sequences_ids[0]output tokenizer.decode(tokens)print(output) 功能在CPU和GPU上快速高效地执行得益于内置的一系列优化层融合、填充去除、批量重新排序、原位操作、缓存机制等。推理LLM更快所需内存更少动态内存使用率由于CPU和GPU上都有缓存分配器内存使用率根据请求大小动态变化同时仍能满足性能要求支持多种CPU体系结构该项目支持x86–64和AArch64/ARM64处理器并集成了针对这些平台优化的多个后端英特尔MKL、oneDNN、OpenBLAS、Ruy和Apple Accelerate 优点并行和异步执行--可以使用多个GPU或CPU核心并行和异步处理多个批处理Prompt缓存——在静态提示下运行一次模型缓存模型状态并在将来使用相同的静态提示进行调用时重用磁盘上的轻量级--量化可以使模型在磁盘上缩小4倍而精度损失最小缺点没有内置的REST服务器——尽管仍然可以运行REST服务器但没有具有日志记录和监控功能的现成服务缺乏对适配器LoRA、QLoRA等的支持四、DeepSpeed-MII 在DeepSpeed支持下DeepSpeed-MII可以进行低延迟和高通量推理。运行web服务 # DONT INSTALL USING pip install deepspeed-mii# git clone https://github.com/microsoft/DeepSpeed-MII.git# git reset --hard 60a85dc3da5bac3bcefa8824175f8646a0f12203# cd DeepSpeed-MII pip install .# pip3 install -U deepspeed# ... and make sure that you have same CUDA versions:# python -c import torch;print(torch.version.cuda) nvcc --versionimport miimii_configs { dtype: fp16, max_tokens: 200, tensor_parallel: 1, enable_load_balancing: False}mii.deploy(tasktext-generation, modelhuggyllama/llama-13b, deployment_namellama_13b_deployment, mii_configmii_configs) 查询实例 import miigenerator mii.mii_query_handle(llama_13b_deployment)result generator.query( {query: [Funniest joke ever:]}, do_sampleTrue, max_new_tokens200)print(result) 功能多个副本上的负载平衡这是一个非常有用的工具可用于处理大量用户。负载均衡器在各种副本之间高效地分配传入请求从而缩短了应用程序的响应时间。非持久部署目标环境的部署不是永久的需要经常更新的这在资源效率、安全性、一致性和易管理性至关重要的情况下这是非常重要的。优点支持不同的模型库支持多个开源模型库如Hugging Face、FairSeq、EluetherAI等量化延迟和降低成本可以显著降低非常昂贵的语言模型的推理成本Native和Azure集成微软开发的MII框架提供了与云系统的出色集成缺点支持模型的数量有限不支持Falcon、LLaMA2和其他语言模型缺乏对适配器LoRA、QLoRA等的支持五、OpenLLM OpenLLM是一个用于在生产中操作大型语言模型LLM的开放平台。运行web服务 pip install openllm scipyopenllm start llama --model-id huggyllama/llama-13b \ --max-new-tokens 200 \ --temperature 0.95 \ --api-workers 1 \ --workers-per-resource 1 查询实例 import openllmclient openllm.client.HTTPClient(http://localhost:3000)print(client.query(Funniest joke ever:)) 功能适配器支持可以将要部署的LLM连接多个适配器这样可以只使用一个模型来执行几个特定的任务HuggingFace Agents[11]连接HuggingFace上不同的模型并使用LLM和自然语言进行管理支持不同的运行框架比如Pytorchpt、Tensorflowtf或Flax亚麻优点良好的社区支持不断开发和添加新功能集成新模型可以添加用户自定义模型量化OpenLLM支持使用bitsandbytes[12]和GPTQ[13]进行量化LangChain集成可以使用LangChian与远程OpenLLM服务器进行交互缺点缺乏批处理支持对于大量查询这很可能会成为应用程序性能的瓶颈缺乏内置的分布式推理——如果你想在多个GPU设备上运行大型模型你需要额外安装OpenLLM的服务组件Yatai[14] 六、Ray Serve Ray Serve是一个可扩展的模型服务库用于构建在线推理API。Serve与框架无关因此可以使用一个工具包来为深度学习模型的所有内容提供服务。运行web服务 # pip install ray[serve] accelerate0.16.0 transformers4.26.0 torch starlette pandas# ray_serve.pyimport pandas as pdimport rayfrom ray import servefrom starlette.requests import Requestserve.deployment(ray_actor_options{num_gpus: 1})class PredictDeployment: def __init__(self, model_id: str): from transformers import AutoModelForCausalLM, AutoTokenizer import torch self.model AutoModelForCausalLM.from_pretrained( model_id, torch_dtypetorch.float16, device_mapauto, ) self.tokenizer AutoTokenizer.from_pretrained(model_id) def generate(self, text: str) - pd.DataFrame: input_ids self.tokenizer(text, return_tensorspt).input_ids.to( self.model.device ) gen_tokens self.model.generate( input_ids, temperature0.9, max_length200, ) return pd.DataFrame( self.tokenizer.batch_decode(gen_tokens), columns[responses] ) async def __call__(self, http_request: Request) - str: json_request: str await http_request.json() return self.generate(prompt[text])deployment PredictDeployment.bind(model_idhuggyllama/llama-13b)# then run from CLI command:# serve run ray_serve:deployment 查询实例 import requestssample_input {text: Funniest joke ever:}output requests.post(http://localhost:8000/, json[sample_input]).json()print(output) 功能监控仪表板和Prometheus度量可以使用Ray仪表板来获得Ray集群和Ray Serve应用程序状态跨多个副本自动缩放Ray通过观察队列大小并做出添加或删除副本的缩放决策来调整流量峰值动态请求批处理当模型使用成本很高为最大限度地利用硬件可以采用该策略优点文档支持开发人员几乎为每个用例撰写了许多示例支持生产环境部署这是本列表中所有框架中最成熟的本地LangChain集成您可以使用LangChian与远程Ray Server进行交互缺点缺乏内置的模型优化Ray Serve不专注于LLM它是一个用于部署任何ML模型的更广泛的框架必须自己进行优化入门门槛高该库功能多提高了初学者进入的门槛如果需要最适合生产的解决方案而不仅仅是深度学习Ray Serve是一个不错的选择。它最适合于可用性、可扩展性和可观察性非常重要的企业。此外还可以使用其庞大的生态系统进行数据处理、模型训练、微调和服务。最后从OpenAI到Shopify和Instacart等公司都在使用它。七、MLC LLM LLM的机器学习编译MLC LLM是一种通用的部署解决方案它使LLM能够利用本机硬件加速在消费者设备上高效运行。运行web服务 # 1. Make sure that you have python 3.9# 2. You have to run it using conda:conda create -n mlc-chat-venv -c mlc-ai -c conda-forge mlc-chat-nightlyconda activate mlc-chat-venv# 3. Then install package:pip install --pre --force-reinstall mlc-ai-nightly-cu118 \ mlc-chat-nightly-cu118 \ -f https://mlc.ai/wheels# 4. Download the model weights from HuggingFace and binary libraries:git lfs install mkdir -p dist/prebuilt \ git clone https://github.com/mlc-ai/binary-mlc-llm-libs.git dist/prebuilt/lib \ cd dist/prebuilt \ git clone https://huggingface.co/huggyllama/llama-13b dist/ \ cd ../.. # 5. Run server:python -m mlc_chat.rest --device-name cuda --artifact-path dist 查询实例 import requestspayload { model: lama-30b, messages: [{role: user, content: Funniest joke ever:}], stream: False}r requests.post(http://127.0.0.1:8000/v1/chat/completions, jsonpayload)print(r.json()[choices][0][message][content]) 功能平台本机运行时可以部署在用户设备的本机环境上这些设备可能没有现成的Python或其他必要的依赖项。应用程序开发人员只需要将MLC编译的LLM集成到他们的项目中即可内存优化可以使用不同的技术编译、压缩和优化模型从而可以部署在不同的设备上优点所有设置均可在JSON配置中完成在单个配置文件中定义每个编译模型的运行时配置预置应用程序可以为不同的平台编译模型比如C用于命令行JavaScript用于webSwift用于iOSJava/Kotlin用于Android 缺点使用LLM模型的功能有限不支持适配器无法更改精度等该库主要用于编译不同设备的模型只支持分组量化[15]这种方法表现良好但是在社区中更受欢迎的其他量化方法bitsandbytes和GPTQ不支持复杂的安装安装需要花几个小时不太适合初学者开发人员如果需要在iOS或Android设备上部署应用程序这个库正是你所需要的。它将允许您快速地以本机方式编译模型并将其部署到设备上。但是如果需要一个高负载的服务器不建议选择这个框架。参考文献 [1] https://github.com/vllm-project/vllm [2] https://github.com/huggingface/text-generation-inference [3] https://github.com/OpenNMT/CTranslate2 [4] https://github.com/bentoml/OpenLLM [5] https://docs.ray.io/en/latest/serve/index.html [6] https://github.com/mlc-ai/mlc-llm [7] https://github.com/microsoft/DeepSpeed-MII [8] https://github.com/microsoft/DeepSpeed [9] https://www.anyscale.com/blog/continuous-batching-llm-inference [10] https://vllm.ai/ [11] https://huggingface.co/docs/transformers/main_classes/agent [12] https://github.com/TimDettmers/bitsandbytes [13] https://arxiv.org/abs/2210.17323 [14] https://github.com/bentoml/Yatai [15] https://arxiv.org/abs/2212.09720

查看全文

http://www.zqtcl.cn/news/779323/