php做网站的分站,设计公司门头,百度小程序模板,阿凡达网站建设两台服务器
1. Docker容器中使用GPU
必须确保已安装并配置 NVIDIA Docker。你可以安装 nvidia-docker 来确保 GPU 驱动能够被 Docker 使用
#安装 nvidia-docker#xff1a;
sudo apt-get install nvidia-docker2#然后重启 Docker#xff1a;
sudo systemctl restart docke…两台服务器
1. Docker容器中使用GPU
必须确保已安装并配置 NVIDIA Docker。你可以安装 nvidia-docker 来确保 GPU 驱动能够被 Docker 使用
#安装 nvidia-docker
sudo apt-get install nvidia-docker2#然后重启 Docker
sudo systemctl restart docker
2.下载vllm-openai镜像
当前latest版本 v0.7.2
docker pull vllm/vllm-openai:latest3. 启动vllm-openai容器
会启动一个node容器 3.1 启动脚本
# master 服务器1执行
sudo bash run_cluster.sh \vllm/vllm-openai \ # 镜像名称172.16.3.38 \ # head服务器IP--head \ # 代表head/home/llm/ai/model \ # huggingface 模型路径-v /home/llm/ai/model:/home/llm/ai/model \ # 宿主机本地模型映射到容器内-e GLOO_SOCKET_IFNAMEenp4s0 \ # 服务器IP对应的网卡名称-e NCCL_SOCKET_IFNAMEenp4s0 \ # 服务器IP对应的网卡名称-e VLLM_HOST_IP172.16.3.38# worker 服务器2执行
bash run_cluster.sh \vllm/vllm-openai \172.16.3.38 \--worker \ # 代表 从服务器/home/llm/ai/model \-v /home/llm/ai/model:/home/llm/ai/model \-e GLOO_SOCKET_IFNAMEenp5s0 \-e NCCL_SOCKET_IFNAMEenp5s0 \-e VLLM_HOST_IP172.16.3.37
run_cluster.sh
#!/bin/bash# Check for minimum number of required arguments
if [ $# -lt 4 ]; thenecho Usage: $0 docker_image head_node_address --head|--worker path_to_hf_home [additional_args...]exit 1
fi# Assign the first three arguments and shift them away
DOCKER_IMAGE$1
HEAD_NODE_ADDRESS$2
NODE_TYPE$3 # Should be --head or --worker
PATH_TO_HF_HOME$4
shift 4# Additional arguments are passed directly to the Docker command
ADDITIONAL_ARGS($)# Validate node type
if [ ${NODE_TYPE} ! --head ] [ ${NODE_TYPE} ! --worker ]; thenecho Error: Node type must be --head or --workerexit 1
fi# Define a function to cleanup on EXIT signal
cleanup() {docker stop nodedocker rm node
}
trap cleanup EXIT# Command setup for head or worker node
RAY_START_CMDray start --block
if [ ${NODE_TYPE} --head ]; thenRAY_START_CMD --head --port6379
elseRAY_START_CMD --address${HEAD_NODE_ADDRESS}:6379
fi# Run the docker command with the user specified parameters and additional arguments
docker run \--entrypoint /bin/bash \--network host \--name node \--shm-size 10.24g \--gpus all \-v ${PATH_TO_HF_HOME}:/root/.cache/huggingface \${ADDITIONAL_ARGS[]} \${DOCKER_IMAGE} -c ${RAY_START_CMD}4. 进入到容器内部加载模型
# 进入容器内部
docker exec -it node /bin/bash# tensor-parallel-size 每台服务器显卡数量
# pipeline-parallel-size 服务器数量
vllm serve /home/llm/ai/model/Qwen/Qwen1___5-1___8B-Chat --port 8080 --tensor-parallel-size 1 --pipeline-parallel-size 2 --dtype float16
5. 查看集群状态
容器内执行 可以看到两个节点 ray status