当前位置: 首页 > news >正文

利用虚拟主机建设网站的实验报告海南建设银行官网招聘网站

利用虚拟主机建设网站的实验报告,海南建设银行官网招聘网站,软件制作助手,qq空间上传wordpress无法通信会出现的错误如下 一、网络健康状态报错 命令原型 hccn_tool [-i %d] -netdetect -s [address %s]命令功能 本功能支持用户执行命令获取网络健康状态#xff08;本端与所配置的检测IP之间的连通状态#xff09;#xff0c;用户可指定上报的状态信息名称。 状态信…无法通信会出现的错误如下 一、网络健康状态报错 命令原型 hccn_tool [-i %d] -netdetect -s [address %s]命令功能 本功能支持用户执行命令获取网络健康状态本端与所配置的检测IP之间的连通状态用户可指定上报的状态信息名称。 状态信息 0Success1Socket fail2Receive timeout3Unreachable4Time exceeded5Fault6Init7Thread error8Detect ip set其它Unknown。 参数说明 参数说明-i指定设备ID。取值范围0~7。-net_health指定网络健康状态属性。-g获取属性。 使用样例 hccn_tool -i 1 -net_health -g报错 net health status: Init二、运行hccl_tools.py报错 根据RANK_TABLE_FILE准备----单机8卡 运行mindformers/tools/hccl_tools.py生成RANK_TABLE_FILE文件 # 运行如下命令生成当前机器的RANK_TABLE_FILE的json文件 python ./mindformers/tools/hccl_tools.py --device_num [0,8)报错 start /home/HwHiAiUser/mindformers/./mindformers/tools/hccl_tools.py visible_devices:[0, 1, 2, 3, 4, 5, 6, 7] server_id:127.0.0.1 device_num_list: [0, 1, 2, 3, 4, 5, 6, 7] Command execute failed! Failed to call hccn_tool, try to read /etc/hccn.conf instead Traceback (most recent call last):File /home/HwHiAiUser/mindformers/./mindformers/tools/hccl_tools.py, line 163, in modulemain()File /home/HwHiAiUser/mindformers/./mindformers/tools/hccl_tools.py, line 137, in maindevice_ip device_ips[device_id] KeyError: 0三、多卡推理报错 多卡推理baichuan2-13b这个时候已经解决了上面的报错但是这时多卡依然无法通信报错EI0004官网论坛以及昇思文档还有gitee都没有解决方案 报错 [WARNING] Distributed Communication has not been inited. Use default RANK_SIZE: 1 [WARNING] Distributed Communication has not been inited. Use default RANK_ID: 0 Traceback (most recent call last):File /home/anaconda3/envs/sakura/lib/python3.9/site-packages/mindformers/core/context/build_context.py, line 95, in init_contextinit()File /home/anaconda3/envs/sakura/lib/python3.9/site-packages/mindspore/communication/management.py, line 171, in initinit_hccl() RuntimeError: Ascend collective communication initialization failed.---------------------------------------------------- - Ascend Error Message: ---------------------------------------------------- EI0004: The ranktable or rank is invalid,Reason:[The ranktable config devId is inconsistent with the local devId.]. Please check the configured ranktable. [{server_count:1,server_list:[{device:[{device_id:0,device_ip:192.168.2.60,rank_id:0},{device_id:1,device_ip:192.168.3.60,rank_id:1},{device_id:2,device_ip:192.168.4.60,rank_id:2},{device_id:3,device_ip:192.168.5.60,rank_id:3},{device_id:4,device_ip:192.168.6.60,rank_id:4},{device_id:5,device_ip:192.168.7.60,rank_id:5},{device_id:6,device_ip:192.168.8.60,rank_id:6},{device_id:7,device_ip:192.168.9.60,rank_id:7}],host_nic_ip:reserve,server_id:127.0.0.1}],status:completed,version:1.0}]Solution: Try again with a valid cluster configuration in the ranktable file. Ensure that the configuration matches the operating environment.(Please search Ascend Error Message at https://www.mindspore.cn for error code description)---------------------------------------------------- - Framework Error Message: (For framework developers) ---------------------------------------------------- Init hccl graph adapter failed. ---------------------------------------------------- - C Call Stack: (For framework developers) ---------------------------------------------------- mindspore/ccsrc/plugin/device/ascend/hal/hardware/ascend_collective_comm_lib.cc:129 Initialize mindspore/ccsrc/plugin/device/ascend/hal/hccl_adapter/hccl_adapter.cc:452 InitKernelInfoStoreDuring handling of the above exception, another exception occurred:Traceback (most recent call last):File /home/HwHiAiUser/mindformers/research/baichuan2/run_baichuan2_pipeline.py, line 35, in modulebuild_context(baichuan2_config)File /home/anaconda3/envs/sakura/lib/python3.9/site-packages/mindformers/core/context/build_context.py, line 43, in build_contextlocal_rank, device_num init_context(use_parallelconfig.use_parallel,File /home/anaconda3/envs/sakura/lib/python3.9/site-packages/mindformers/core/context/build_context.py, line 97, in init_contextraise RuntimeError(Notice: if you are trying to run with a single device, please set RuntimeError: Notice: if you are trying to run with a single device, please set use_parallelFalse. If not, please check the error message above.解决方案 第一步编译HCCL 参考昇腾社区—CANN社区版—开发工具—HCCL性能测试工具—工具编译 第二步配置网卡 1、RoCE网卡IP地址和子网掩码 命令原型 hccn_tool [-i %d] -ip -s [address %s] [netmask %s]命令功能 配置RoCE网卡的IP地址、子网掩码。 参数说明 参数说明-i指定设备ID。取值范围0~7。-ip指定IP属性。-s设置属性。addressIP地址。netmask子网掩码。 约束说明 该命令仅支持在物理机root用户下运行。 使用样例 hccn_tool -i 0 -ip -s address 192.168.10.61 netmask 255.255.255.0 hccn_tool -i 1 -ip -s address 192.168.10.62 netmask 255.255.255.0 hccn_tool -i 2 -ip -s address 192.168.10.63 netmask 255.255.255.0 hccn_tool -i 3 -ip -s address 192.168.10.64 netmask 255.255.255.0 hccn_tool -i 4 -ip -s address 192.168.10.65 netmask 255.255.255.0 hccn_tool -i 5 -ip -s address 192.168.10.66 netmask 255.255.255.0 hccn_tool -i 6 -ip -s address 192.168.10.67 netmask 255.255.255.0 hccn_tool -i 7 -ip -s address 192.168.10.68 netmask 255.255.255.0注意事项 我的服务器IP是192.168.10.60所以设置显卡ip需要以192.168.10为起始 针对AI Server上每个Device侧OS管理8块昇腾AI处理器需要为每个OS上的8块网卡配置不同的IP。 首次配置IP时会出现15秒后link状态变为down然后恢复up状态的情况。 192.168.1.X、192.168.2.192、192.168.2.196、192.168.3.193、192.168.3.197、192.168.4.194、192.168.4.198、192.168.5.195和192.168.5.199用于板内网络通信使用不支持配置。 2、配置路由 hccn_tool -i 0 -gateway -s gateway 192.168.10.60 hccn_tool -i 1 -gateway -s gateway 192.168.10.60 hccn_tool -i 2 -gateway -s gateway 192.168.10.60 hccn_tool -i 3 -gateway -s gateway 192.168.10.60 hccn_tool -i 4 -gateway -s gateway 192.168.10.60 hccn_tool -i 5 -gateway -s gateway 192.168.10.60 hccn_tool -i 6 -gateway -s gateway 192.168.10.60 hccn_tool -i 7 -gateway -s gateway 192.168.10.603、配置NPU网口检测IP地址(网络检测对象IP) 命令原型 hccn_tool [-i %d] -netdetect -s [address %s]命令功能 配置网络检测对象IP。该功能主要用于检测网络状态当多台服务器进行分布式训练时可将检测对象IP配置为网段内的网关地址服务器会定时检测和网关地址通信是否正常从而实现检测服务器参数面网络状态是否正常的效果。该功能需配合获取网络健康状态使用。 参数说明 参数说明-i指定设备ID。取值范围0~7。-netdetect指定网络检测对象IP属性。-s设置属性。addressIP地址。 约束说明 该命令仅支持在物理机的root用户下运行。 使用样例 hccn_tool -i 0 -netdetect -s address 192.168.10.60 hccn_tool -i 1 -netdetect -s address 192.168.10.60 hccn_tool -i 2 -netdetect -s address 192.168.10.60 hccn_tool -i 3 -netdetect -s address 192.168.10.60 hccn_tool -i 4 -netdetect -s address 192.168.10.60 hccn_tool -i 5 -netdetect -s address 192.168.10.60 hccn_tool -i 6 -netdetect -s address 192.168.10.60 hccn_tool -i 7 -netdetect -s address 192.168.10.60官网给的教程里ip地址要对应路由地址对应网关地址但是这样设置后会显示net health status: Receive timeout 我改完RoCE网卡IP地址后才会显示成功也就是 hccn_tool -i 0 -netdetect -s address 192.168.10.61 hccn_tool -i 1 -netdetect -s address 192.168.10.62 hccn_tool -i 2 -netdetect -s address 192.168.10.63 hccn_tool -i 3 -netdetect -s address 192.168.10.64 hccn_tool -i 4 -netdetect -s address 192.168.10.65 hccn_tool -i 5 -netdetect -s address 192.168.10.66 hccn_tool -i 6 -netdetect -s address 192.168.10.67 hccn_tool -i 7 -netdetect -s address 192.168.10.68设置完成后随意检查一块显卡的健康状态 hccn_tool -i 7 -net_health -g返回Success即为成功这样就解决了bug-1和bug-3 net health status: Success以上操作参考Ascend Training Solution 23.0.RC3 组网指南 01 设置完成后运行hccl_tools.py start /home/HwHiAiUser/mindformers/./mindformers/tools/hccl_tools.py visible_devices:[0, 1, 2, 3, 4, 5, 6, 7] server_id:127.0.0.1 device_num_list: [0, 1, 2, 3, 4, 5, 6, 7] rank_id:0, device_id:0, device_ip:192.168.10.61 rank_id:1, device_id:1, device_ip:192.168.10.62 rank_id:2, device_id:2, device_ip:192.168.10.63 rank_id:3, device_id:3, device_ip:192.168.10.64 rank_id:4, device_id:4, device_ip:192.168.10.65 rank_id:5, device_id:5, device_ip:192.168.10.66 rank_id:6, device_id:6, device_ip:192.168.10.67 rank_id:7, device_id:7, device_ip:192.168.10.68 Completed: hccl file was save in : /home/HwHiAiUser/mindformers/hccl_8p_01234567_127.0.0.1.json这样就算是成功了bug-2就解决了
http://www.zqtcl.cn/news/848208/

相关文章:

  • 自己做静态网站的步骤店面设计在线
  • 活动汪活动策划网站wordpress 无法保存
  • 门户网站开发案例兰州需要做网站的公司有哪些
  • 东莞企业网站asp网站怎么安装
  • 个人做公司网站网站备案取消接入
  • 崇信网站建设it外包的收益主要有哪些
  • 安陆做网站多少钱免费网站定制
  • 快递网站模版长春好的做网站公司有哪些
  • 怎么利用公司网站开发客户网站建设重点步骤
  • 网站站内推广用个人电脑做网站的步骤
  • 网站设计主要包含3个方面陕西城乡住房建设部网站
  • 专门做汽车配件的网站东莞招聘网有哪些比较好
  • 网站前台怎么套用织梦后台小网站怎么建设
  • 网站框架代码深圳手机网站设计
  • 更改网站主题九江建网站的公司
  • 如何分析一个网站网站页面建设
  • 做网站好网页制作3个网页的网站图片
  • 合肥网站建设网站推广新的网站建设一般多少钱
  • 北京网站改版哪家好网站关键词怎样做优化
  • 网站开发行业分析wordpress 粘贴表格
  • 网站开发的招标参数网络科技公司网站源码下载
  • 属于网络营销站点推广的是seo好wordpress主题
  • j2ee只做网站阿里企业邮箱免费
  • 做企业网站需要买什么资料室内设计学徒
  • 网站新增关键词设计公司logo公司文化
  • 怎么写一个网站程序农产品网站如何做地推
  • 北京网站优化服务商有了域名怎么建网站
  • 转运网站开发国外永久免费crm系统
  • 免费网站建设网站wordpress扁平化中文主题
  • 外贸企业网站策划个人简历模板免费可编辑