J9九游会

产品介绍
兼容Slurm的命令行工具

SLURM兼容工具(SCC),为AI开发者提供了一个与SLURM语法兼容的CLI工具,帮助AI开发者在用户习惯最少量改动的情况下,无需yaml文件的编写或复杂参数的配置,可直接使用Slurm的命令行、或类Slurm的命令行来对SenseCore的AI算力池进行任务的发起、管理,节点资源的查看等行为,使用户的迁移成本最小化,从而让研究员平滑完成大规模集群资源管理系统的过渡,最大化地享受优化后工业级大规模算力管理系统的优质体验

产品优势
保留SLURM命令特色,兼顾容器化分布式优势,提供极致系统兼容体验。
  • 01 兼容Slurm命令行
  • 02享受容器技术特色优势
  • 03无需复杂配置
  • 04精简易用,快速上手
 兼容Slurm命令行
01 兼容Slurm命令行

支持用户直接使用slurm原生或类slurm的命令行,如srun、scontrol、scancel、squeue,sinfo等命令进行任务的发起和管理

享受容器技术特色优势
02享受容器技术特色优势

支持用户发起的任务作业享受容器化的分布式架构所带来的部署易用性、环境一致性、可观察性等,基于现代化的大规模集群资源管理系统,在资源隔离和资源利用上有明显提升

无需复杂配置
03无需复杂配置

在AI云开发机内自动集成内置命令行,用户无需复杂配置,在使用命令行界面发起相关请求时,自动触发封装请求

精简易用,快速上手
04精简易用,快速上手

用户无需学习基于k8s架构的相关命令行语法,免去yaml文件中复杂参数的编写,通过类slurm命令行的进行简单的参数配置,就可以完成脚本编写和请求

 兼容Slurm命令行
01
兼容Slurm命令行

支持用户直接使用slurm原生或类slurm的命令行,如srun、scontrol、scancel、squeue,sinfo等命令进行任务的发起和管理

享受容器技术特色优势
02
享受容器技术特色优势

支持用户发起的任务作业享受容器化的分布式架构所带来的部署易用性、环境一致性、可观察性等,基于现代化的大规模集群资源管理系统,在资源隔离和资源利用上有明显提升

无需复杂配置
03
无需复杂配置

在AI云开发机内自动集成内置命令行,用户无需复杂配置,在使用命令行界面发起相关请求时,自动触发封装请求

精简易用,快速上手
04
精简易用,快速上手

用户无需学习基于k8s架构的相关命令行语法,免去yaml文件中复杂参数的编写,通过类slurm命令行的进行简单的参数配置,就可以完成脚本编写和请求

01
/
04
产品功能
对用户提交的类Slurm命令行进行解析封装,提交至高性能AI算力池。
  • 提交训练任务
    提交训练任务

    支持用户基于Srun的命令行形式发起不同框架的训练任务,并配置所需要的资源规格数量,以指定的方式返回结果;

  • 训练任务管理
    训练任务管理

    支持用户基于scontrol,scancel等命令行内容,对已提交的任务查看详情,并对其进行取消等操作行为;

  • 集群资源查看
    集群资源查看

    支持用户基于sinfo,squeue等命令行内容,对可用的集群工作空间资源,当前用户的任务排队情况进行综合查看。

应用场景
大规模集群资源管理使用,发起多机多卡分布式训练。
  • 01大规模分布式训练
  • 02大规模集群资源管理
大规模分布式训练
大规模分布式训练
用户可基于slurm的命令行语法,配置资源规格和节点数量,发起分布式训练任务,并基于返回结果进行解析。

CLI前端构建命令,对用户选项、参数进行校验。

CLI后端转换封装构建请求体并发送,格式化输出。

大规模集群资源管理
大规模集群资源管理
用户可查看可用的集群资源总量、使用量等维度,及当前任务的排队情况,来综合判断集群资源利用负载。

通过鉴权机制进行身份认证,实现资源权限管控

01大规模分布式训练
02大规模集群资源管理
大规模分布式训练
大规模分布式训练
用户可基于slurm的命令行语法,配置资源规格和节点数量,发起分布式训练任务,并基于返回结果进行解析。

CLI前端构建命令,对用户选项、参数进行校验。

CLI后端转换封装构建请求体并发送,格式化输出。

大规模集群资源管理
大规模集群资源管理
用户可查看可用的集群资源总量、使用量等维度,及当前任务的排队情况,来综合判断集群资源利用负载。

通过鉴权机制进行身份认证,实现资源权限管控

全线产品持续上新,推诚相与,合作共赢

专业的AI解决方案、先进的AI产品助力您的业务实现新的突破