校园互动平台网站建设,洛阳网站建设电话,鹿岛建设 网站,邢台人才网官网首页解决容器内deepspeed微调大模型报错#xff1a;[launch.py:315:sigkill_handler] Killing subprocess 问题描述#xff1a;解决办法 问题描述#xff1a;
在容器中用deepspeed微调百川大模型2时#xff0c;出现上述错误#xff0c;错误是由于生成容器时#xff0c;共享内… 解决容器内deepspeed微调大模型报错[launch.py:315:sigkill_handler] Killing subprocess 问题描述解决办法 问题描述
在容器中用deepspeed微调百川大模型2时出现上述错误错误是由于生成容器时共享内存没有设置采用默认值引起的。终端输入ds_report,可以查看shared_memory,之前是默认63M现已调整50G
解决办法
docker stop 容器名 docker rm 容器名 重新生成容器时加上共享内存参数–shm-size1g 例 docker run -it -d --shm-size50g --name 容器名–net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIEScompute,utility ubuntu:latest /bin/bash