部署业务前有哪些前置准备工作?
首次使用批量计算服务,用户需要先创建资源池和队列,作业、开发环境等都需要归属到队列内。如需要使用自定义镜像功能,需提前登录容器镜像服务(CRS)设置访问凭证并创建私有组织。
批量计算的开发环境可以提供哪些快捷工具?
当前可提供Jupyter和VSCode在线代码编辑器,同时用户可自行安装所需的其他插件。
批量计算的开发环境支持哪些公共框架?
当前支持Pytorch,Tensorflow和PaddlePaddle。
作业运行常见问题
- 作业提交后,为什么没有立刻启动?
作业提交后会由平台进行调度,根据优先级排队等待资源,等待时间依资源池繁忙程度而定。一个作业内可以包含多个任务节点和实例,有可能出现作业中某些实例分配了资源开始运行,其它实例还在等待的情况。
- 作业运行结束后,其中的数据是否还在?
作业运行结束后,其中的数据将被销毁,请在作业业务逻辑中及时保存数据,例如将数据存储到对象存储等持久化存储介质中。
- 通过批量计算提交的作业,是否支持节点间通信?
同一个集群内的实例,可以通过内网 IP 进行通信,不同集群间实例不能互相通信。
调试和查错常见问题
- 如何进行开发调试?
批量计算提供了开发环境,可现在开发环境进行单机调试。
- 如果程序执行失败怎么调试?
程序失败时可以通过查看作业和实例事件获取更多的作业运行信息。如果问题还未能解决,请联系售后技术支持。