模型训练
平台提供训练作业管理功能,包括查看和修改作业运行状态(等待、运行、错误、终止、完成等)、作业快速克隆。平台提供作业的日志查看功能,可以查看从提交作业到作业结束等所有状态的日志信息,支持训练过程中输出损失率、准确率等动态可视化监控图表,同时支持实时输出训练过程日志,并提供日志下载功能,方便用户调试。
1.作业信息查看及状态修改
2.监控作业/日志查看/作业JSON文件查看
3.打包容器
4.高级服务(WebSSH、Jupyter、Tensorboard、远程桌面、VSCode)
# 作业信息查看及状态修改
点击算法开发-》作业管理进入作业管理界面,可以查看当前用户所提交的作业,以及作业的创建时间、提交用户、运行时间、使用的资源池、运行数量等信息。
单击操作栏下的按钮,可以停止作业、删除作业、设定工作时长等。
# 监控作业/日志查看/作业JSON文件查看
单击作业名称,即可查看当前作业的详细信息,包括开始时间以及当前作业监控等。
单击“JSON 文件”可以查看当前作业的 JSON
单击"查看运行日志"可以查看当前作业日志。
单击“作业监控”可以以图形化的方式查看当前作业对硬件资源的使用情况,其中包括CPU、GPU、内存、硬盘、网络等。
# 打包容器
单击“打包容器”图标,填写名称及标签,点击确认后即可完成容器打包操作。
# 高级服务(WebSSH、Jupyter、Tensorboard、远程桌面、VSCode)
单击“终端”图标,以 web ssh 方式进入容器。
单击“Jupyter”图标可即打开 Jupyter:
单击“Novnc”图标,即可打开远程桌面。
单击“TensorBoard”图标,可以打开 TensorBoard。
单击“VSCode”图标,可以打开VSCode。
模版管理中见视频讲解!