机器学习BML

面向企业和AI开发者的端到端机器学习平台,可一站式完成数据预处理、模型训练与评估、服务部署等工作。

产品概述

AI开发平台BML是一款端到端的AI开发和部署平台。基于BML,用户可以一站式完成数据处理,模型训练与评估,服务部署等工作。平台提供了高性能的集群训练环境,海量算法框架与模型案例,以及操作便捷的预测服务工具,让用户可以专注于模型与算法本身,并得到优质的模型与预测效果。

产品功能

工作区

完全托管的交互式编程环境,实现数据处理和代码调试

点开即用的交互式运行环境Jupyter

完全托管的Jupyter环境内置多种常用算法框架和软件库,无需配置环境,点开即用,同时CPU实例支持用户安装第三方软件库,自定义环境,最大程度保证您使用的灵活性。

提供GPU资源

工作区的Jupyter运行环境为用户提供GPU计算资源,您的轻量级数据处理、训练需求可以直接在Jupyter中完成,快捷高效,并为大规模训练任务做好准备。

自动同步BOS数据

自动加载对象存储BOS中存储的训练数据,并将容器中数据实时同步到BOS上。

训练

多种深度/机器学习框架,一键发起大规模训练作业

支持多种深度/机器学习框架

支持Tensorflow / Pytorch / PaddlePaddle等多种深度学习框架和Rapdis cuML机器学习框架,您的代码可一键发起作业。

AutoDL/AutoML

支持自动图像分类和逻辑回归超参自动寻优,您只需提供训练数据和参数,即可完成模型训练和持续优化,最大化提升训练效率及效果。

大规模分布式训练

提供多种CPU、GPU套餐,支持多机多卡场景,单机最高可用8张Nvidia Tesla V100 GPU卡。

预测

预测模型灰度上线,高效率低延迟的预测服务

支持多种框架

支持TensorRT, PaddlePaddle,Anakin(基于PaddlePaddle深度优化的预测服务框架)等多种预测服务框架。

预测模型库

匹配模型数据和模型运行环境(Container Image), 管理(增/删/改)可部署的预测模型和其版本。

资源管理

为服务端点配置集群资源,监控生产环境中的服务,保证服务可用性的条件下在线变更服务资源。

A/B Test

端点服务支持不同版本模型的上线,从而支持客户对不同版本模型的效果评估。

负载管理

控制流向不同端点的数据流量,为业务中新模型的灰度上线,负载均衡和服务质量控制提供有效机制。

产品定位


工作区
训练
预测
用户类型
  • 公民数据科学家
  • 关注易用性和使用时长
  • 专家数据科学家
  • 关注性能和资源利用率
  • 业务管理及运维人员
  • 关注性能和资源利用率
痛点
  • 成本高:长期占用高价值资源
  • 软件环境复杂:需要自行配置开发环境和安装软件
  • 成本高&工程复杂:硬件和系统建立复杂,价格高,高性能集群的配置复杂
  • 资产折旧快:技术和系统更新快
  • 资源利用率:每人独占多台物理资源,复用困难,资源利用率低
  • 没有成熟的工具和方法论支持部署
  • 对多个模型版本的运行状态和机制无法有效管理
  • 手工上线部署,过程复杂
功能
  • “开机即用” 的类IDE开发环境,支持最新发布的Jupyter Lab
  • 工作区环境可以长期保存,秒级重启
  • 提供多种示例代码,供用户参考使用
  • 已经建立的集群训练环境
  • 作业调度,提高资源使用率
  • 即用即付,支持高到低的各种不同的GPU计算类型
  • 预测模型管理
  • 模型上线过程可控,支持灰度发布和流量分配
  • 自动部署模型的配置,出错可以回退

产品优势

快速上手
点开即用的Jupyter环境,内置多种常用框架,无需配置环境。同时支持多种Auto算法,省去编程和超参数调优的繁重工作。
一站式开发和部署
在控制台进行简单点击或使用API调用,可一站式完成发起训练任务、获取训练模型、启动预测服务,覆盖了AI开发&部署的全流程。
灵活
在控制台进行简单点击或使用API调用,可一站式完成发起训练任务、获取训练模型、启动预测服务,覆盖了AI开发&部署的全流程。
高性能
产品资源采用容器技术,可快速启动和释放,多机多卡的分布式训练和对企业级超大规模数据的支持,可显著缩短开发所需时间。