运维中心
运维中心是一个全面且复杂的管理系统,包含了多个关键功能模块,以确保平台的高效运行和资源的最佳利用。主要功能模块包括
- 区域管理:允许管理员对平台服务的地理区域进行管理和配置
- 运算卡管理:专注于管理和分配用于计算任务的运算卡资源
- 代理设备管理:用于监控和管理作为通信桥梁的代理设备
- 计算资源管理:分为三个子部分——推理设备管理、AI训练设备管理和存储设备管理,确保这些关键资源的有效分配和使用
- 资源规格管理:允许定义和调整不同类型资源的规格,以满足不同任务的需求
- 资源限制:用于设置资源使用的上限,以防止资源过度消耗
- 日志审计:记录和管理系统操作日志,便于追踪和审计
- 许可证管理:管理软件和硬件的使用许可,确保合规性
# 区域管理
在运维中心的区域管理功能中,主要目的是对平台上的设备进行地理区域划分和隔离,以优化资源管理和提高服务效率。这一功能通过几个关键的操作来实现
添加区域,管理员可以通过点击“添加”按钮来创建新的设备区域。这使得平台能够灵活应对业务扩展或特定地理区域的需求
编辑区域,已有区域的名称可以通过点击“编辑”按钮进行修改。这一功能对于维护区域信息的准确性和及时性至关重要
删除区域,如果某个区域不再需要,管理员可以通过点击“删除”按钮来移除该区域。这有助于保持平台的清晰结构和高效运行
# 运算卡管理
运算卡管理功能致力于精确配置关键性能参数,包括选择特定的运算卡型号、设定显存容量、指定兼容的CUDA版本以及测定浮点数计算能力。这些细致的设置确保运算卡能够以最佳状态支撑各类计算任务,从而显著提高平台的处理效率和数据运算能力
通过简单而直观的操作,管理员可以轻松扩展平台的计算能力:仅需点击“添加”按钮,即可添加新的运算卡型号。在此过程中,管理员还能为每张运算卡定制显存大小、浮点算力,以及支持的最高CUDA版本,从而确保每张运算卡都能以最优配置满足不同计算需求,进一步提升整个平台的数据处理和分析能力
利用“修改”按钮,管理员得以轻松更新现有运算卡的关键参数,包括型号、显存容量、算力,以及所支持的CUDA版本。这一功能不仅提高了资源的灵活性和可适应性,还确保了平台能够随着技术进步和业务需求的变化而持续优化其计算能力
删除按钮,删除当前选定的算力卡型号
# 代理设备管理
代理设备功能核心在于为AI训练等核心模块提供精确、高效的端口代理服务。在这一配置过程中,管理员需细致指定代理设备的IP地址或域名、所属地理区域、服务端口,以及代理端口的范围,进一步通过设定认证Token增强安全性。这样的配置旨在确保代理服务的高效率和高安全性,从而无缝支持复杂的AI训练任务
通过直观的用户界面,管理员可以轻松地管理代理服务:点击“添加”按钮即可快速启动新代理服务的配置。同样,现有的代理地址也可以通过“编辑”功能进行灵活的修改,或者使用“删除”功能来移除不再需要的代理服务。这种操作的简便性和灵活性确保了代理服务始终能够高效且精准地满足平台的需求变化
# 计算资源管理
计算资源管理主要是提供AI训练设备、推理设备、存储设备的管理能力
# AI训练设备管理
在AI训练设备中开放平台支持,添加、修改、删除、查询节点镜像、BMC管理、节点监控等操作
通过添加按钮可以,添加新设备上架
通过删除按钮可以,删除现有设备
先选择节点,在点击节点镜像,可以查看当前节点上镜像,并可以对当前节点未使用镜像进行删除
点击BMC配置 对应填写BMC ip 用户名和密码
配置完BMC 可以通过平台重启和关机按钮,对机器进行重启和关机
同步按钮可以同步当前节点状态
点击gpu配置按钮可以查看当前机器gpu型号,数量。设备ip,以及模式
通过点击节点名称可以查看节点详细配置 如cpu, gpu等
# 推理设备
训练(Training):训练是指通过提供大量数据来构建和调整机器学习模型的过程。在训练阶段,模型学习数据的模式和规律,以便能够在未见过的数据上做出预测或分类。训练通常包括选择模型架构、损失函数和优化算法,并进行迭代调整以提高性能。
推理(Inference):推理是指使用已经训练好的模型来进行实际的预测、分类或决策。在推理阶段,模型接受输入数据并生成相应的输出,而不再进行参数的更新或学习。推理通常用于将机器学习模型应用于实际问题,如图像分类、自然语言处理等。
总的来说,训练是构建机器学习模型的过程,而推理是使用已训练好的模型进行实际预测或决策的过程。训练通常是离线的、计算密集的过程,而推理通常是在线的、实时的过程。 在推理设备中开放平台支持,添加、修改、删除、查询节点镜像、BMC管理、节点监控等操作。
# 存储设备管理
存储设备管理主要负责开放平台的存储部分,目前支持存储类型有NFS、Cephfs、GlusterFS、XDFS、GPFS等,同时还支持指定计算节点绑定存储设备的功能。
# 资源规格管理
资源规格管理的核心目的在于优化AI训练设备的计算资源分配。此过程包括了一系列精细化操作,如添加、调整以及删除计算资源,以确保资源的有效利用和高效管理
可以通过添加按钮,添加新的资源规格,或编辑按钮修改资源规格,也可通过删除按钮删除资源规格
# 资源限制
资源限制策略旨在精确控制普通用户对平台计算资源的最大使用量,确保公平、高效的资源分配,并维护整个系统的稳定运行。
可以通过添加按钮限制用在,在一个区域内所能用的资源规格数量,也可以通过编辑,修改对用户限制,或通过删除按钮删除现有资源限制
# 日志审计
为了提高系统的可维护性和安全性,我们为平台添加了日志审计功能。这一功能包括登录日志,记录用户的登录活动;操作日志,跟踪用户在平台上的操作;以及运行日志,记录系统的运行状态。这些日志的详细信息可以帮助我们及时发现和解决问题,定位故障,确保平台的稳定性和可靠性。此外,我们还提供了导出功能,以便用户可以随时访问和分析这些日志,进一步增强了平台的管理和监控能力。
可以通过导出按钮把日志管理导入出来
# 许可证管理
控制开放平台的模块授权功能,支持离线导入证书以及在线导入证书两种方式
# 主题颜色切换
为了提升用户体验,我们特别引入了主题颜色切换功能,让用户可以根据个人喜好和需求自由选择平台的外观风格。这个功能不仅使平台更加多样化,也增加了视觉上的吸引力。无论是喜欢明亮清新的界面,还是更偏爱深沉典雅的外观,用户都可以轻松切换主题颜色,以适应不同的心情和环境。这个改进旨在让每位用户都能在使用平台时感到更加舒适和愉快。