CCE GPU Manager 说明
更新时间:2022-05-10
组件介绍
一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。
组件功能
- 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
- GPU 共享:提供为节点上的 GPU 设备开启显存共享功能,支持将 GPU 卡按显存大小分配给多个 Pod。
- 显存和算力隔离:多 Pod 共享单张 GPU 卡时进行显存和算力级别的隔离。
使用场景
在 CCE 集群中运行 GPU 应用时,可以解决 AI 训练等场景中独占整张卡造成资源浪费的情况,从而提高资源的使用率,降低成本。
限制说明
- 仅支持 v1.18 版本的 Kubernetes 集群。
- 目前该组件依赖于 CCE AI Job Scheduler,若您需要请一同安装,否则可能导致组件功能不可用。
安装组件
- 登录云平台官网,并进入管理控制台。
- 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的 集群管理 > 集群列表 。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击 组件管理 。
- 在组件管理列表中选择 CCE GPU Manager 组件单击“安装。
- 在确认安装弹出框中点击“确定”按钮完成组件的安装。