cd /home/deepseek sbatch srun_deepseek.sh 输出示例:Submitted batch job 40...日志目录下的err文件,当出现如下信息时,表示服务启动: INFO: Started server process [409] INFO: Waiting for application startup.
cd /home/deepseek sbatch srun_deepseek.sh 输出示例:Submitted batch job 403...日志目录下的err文件,当出现如下信息时,表示服务启动:INFO: Started server process [409] INFO: Waiting for application startup.
查看Pod日志,通过业务日志内容排查问题。阶段四:Pod运行问题OOM当集群中的容器使用超过其限制的内存,容器可能会被终止,触发OOM(Out Of Memory)事件,导致容器异常退出。OOM可能原因说明推荐的解决方案系统内存不足查看Pod所在节点的内核日志/var/log/messages,日志中存在Killed Process,但不存在kubepods相关日志;且主机内存使用量较高,表明是主机操作系统内存不足。可能是系统全局内存不足、内存碎片化严重、内存泄露等。可提单排查。