物理机通过NFS协议挂载HPFS文件系统,网络不通如何处理?
可能原因
原因1:物理机和HPFS的协议服务不是同一个VPC。
原因2:VPC下需要有一个标准裸金属子网,和一个的普通子网。
定位思路
排除网络问题后,重试挂载命令。
解决方法
1)HPFS创建协议服务时选择和物理机相同的VPC,以及选择开启终端节点。后续选择VPCE的挂载地址进行挂载操作。详细可参见:创建协议服务;
2)检查VPC下,需要有一个标准裸金属子网,和一个的普通子网。
如何解决云主机无法挂载文件系统问题?
定位思路
云主机挂载HPFS文件系统,创建文件系统后,使用协议服务功能,通过VPC或VPCE的挂载地址挂载。详细请参见:协议服务概述。
相关挂载操作请参见:HPFS-NFS客户端挂载。
解决方法
执行 route 命令查看有没有100路由地址,若没有执行 dhclient 或者执行 reboot 重启云主机,然后再次 route 查看有没有100路由地址。如果依然不能请联系客服或提交报障工单。
用户使用HPFS进行模型训练时,出现机器CPU内核态占用有时非常高的现象
可能原因
监测发现系统中有大量ldlm_bl_xx类进程占用较高资源,同时通过命令lctl get_param ldlm.namespaces.*.lock_count查得的锁数量持续处于高位。这是由于ldlm.namespaces.*.lru_max_age参数默认值较大,导致锁数量长期无法有效释放,进而引起CPU在内核态频繁处理锁查找与冲突,造成利用率升高。
解决方法
当客户端频繁访问小文件时,较大的锁缓存设置(lock_count)有助于提升单客户端性能,但也容易引发锁冲突。尤其在目录结构复杂时,锁查找操作会导致CPU负载显著上升。
此时可适当调整锁的缓存时间,以减少锁持有数量,缓解CPU压力。例如,执行以下命令将锁的最大存活时间设置为60秒:
lctl set_param ldlm.namespaces.*.lru_max_age=60s
该调整有助于系统更及时地释放闲置锁,降低锁管理开销,从而改善CPU内核态占用过高的情况。