建设考试网站首页,国外有哪些网站做推广的比较好,卡一卡二卡四老狼,html个人网页制作步骤为了测试vllm的并行加速效果#xff0c;采用同样的5个提问#xff0c;编写两个不同的python脚本#xff0c;分别是compare_vllm.py和compare_chatglm3.py#xff0c;其中compare_vllm.py采用vllm加速。
服务器参数#xff1a;
操作系统ubuntu 22.04CPUi7 14700k内存dd5 …为了测试vllm的并行加速效果采用同样的5个提问编写两个不同的python脚本分别是compare_vllm.py和compare_chatglm3.py其中compare_vllm.py采用vllm加速。
服务器参数
操作系统ubuntu 22.04CPUi7 14700k内存dd5 128G显卡3090 24G 两块 compare_vllm.py的代码如下
import time
from vllm import LLM, SamplingParamsdef main():# 定义批量数据desc 这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子儿子穿着运动鞋和牛仔短裤他们站在方形的砖块地面query f对于以下图片描述提取标签每一个标签作为数组的一个元素以JSON格式输出。只输出标签不用解释:\n{desc}prompts [中华人民共和国成立的日期是哪一天,为什么AI在这一两年爆发了?,query,中美人口分别是多少美国有多少中国的移民,你擅长数学计算吗,]sampling_params SamplingParams(temperature0.1, top_p0.5, max_tokens4096)path /home/data/model/zhipu/chatglm3-6bllm LLM(modelpath, trust_remote_codeTrue, tokenizer_modeauto, tensor_parallel_size2, dtypeauto)start_time time.time() # 获取当前时间outputs llm.generate(prompts, sampling_params)# 输出结果for output in outputs:prompt output.promptgenerated_text output.outputs[0].textprint(fPrompt: {prompt!r}, Generated text: {generated_text!r})end_time time.time() # 获取当前时间print(fThe code run for {end_time - start_time} seconds.) if __name__ __main__:main()
compare_chatglm3.py的代码如下 import time
from transformers import AutoTokenizer, AutoModeldef main():MODEL_PATH /home/data/model/zhipu/chatglm3-6btokenizer AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_codeTrue)model AutoModel.from_pretrained(MODEL_PATH, trust_remote_codeTrue, device_mapauto).eval()desc 这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子儿子穿着运动鞋和牛仔短裤他们站在方形的砖块地面query f对于以下图片描述提取标签每一个标签作为数组的一个元素以JSON格式输出。只输出标签不用解释:\n{desc}prompts [中华人民共和国成立的日期是哪一天,为什么AI在这一两年爆发了?,query,中美人口分别是多少美国有多少中国的移民,你擅长数学计算吗,]start_time time.time() # 获取当前时间for p in prompts:response, history model.chat(tokenizer, p, history[], roleuser) #,top_p0.8, temperature0.2print(response)end_time time.time() # 获取当前时间print(fThe code run for {end_time - start_time} seconds.) if __name__ __main__:main()
python compare_vllm.py: 输出The code run for 3.9577383995056152 seconds. 最大显存使用因为动态在变化这个并不精确2个各22G总计44G
compare_chatglm3.py 输出The code run for 12.522217512130737 seconds. 最大显存使用因为动态在变化这个并不精确2个各6G总计12G 很明显vllm确实具备并行加速性能差不多是3倍。当然显存的峰值使用量明显增多差不多是不用vllm的3.7倍。当然可以考虑采用进程方式部署多个非vllm服务实现并行但是那样的话部署会麻烦一些。