操作步骤
- 创建开发机并打开jupyter开发环境
- 训练模型并且保存训练参数
- 安装tensorboard以及插件
- 保存镜像并创建一个新的开发环境,打开tensorboard查看训练数据。
步骤一:创建开发机并打开jupyter开发环境
- 创建一个开发环境,填写开发机名称;选择队列;选择可用区;选择GPU加速型并选择所需规格。填写内容以图为例:
2.填写完毕后点击【确认】创建开发机。
3.在【开发环境】页面中可查看刚才创建的开发机,等待开发机启动完毕。
4.当开发机状态为【运行中】时,在右侧点击【打开】即可进入Jupyter开发环境。
步骤二:训练模型并且保存训练参数
-
打开开发环境,新建工作目录,命名为”workspace”。
-
新建一个Python File,命名为“main.py”。把github链接
https://github.com/kubeflow/training-operator/blob/master/examples/pytorch/mnist/mnist.py
代码复制到新建的main.py文件里面,Epoch可以改成10,并保存文件。
步骤三:安装tensorboard以及插件
-
在终端中安装tensorboard,tensorboardX。
pip install tensorboardX -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install tensorboard -i https://pypi.tuna.tsinghua.edu.cn/simple
-
新建一个终端,输入以下命令,开始训练,同时workspace目录下有logs文件生成。
python main.py
-
更新tornado版本,在终端中输入以下命令:
pip install tornado==6.2
-
安装tensorboard插件:
pip install jupyterlab-tensorboard-pro -i https://pypi.tuna.tsinghua.edu.cn/simple
步骤四:4. 保存镜像并创建一个新的开发环境,打开tensorboard查看训练数据
-
安装完tensorboard插件后需要重新创建开发环境才能生效,所以安装之后需要先保存镜像。
-
使用保存的镜像新建一个jupyter开发环境。
-
在jupyter中点击【tensorboard】文件类型,打开tensorboard。
-
在log dir输入日志文件的地址。
-
图中展示accuracy和loss的值变化过程,训练过程中一般关心loss值的变化趋势,观察趋势对训练参数做出对应调整。