容器引擎CCE

CCE GPU Manager 说明

组件介绍

一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。

组件功能

  • 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
  • GPU 共享:提供为节点上的 GPU 设备开启显存共享功能,支持将 GPU 卡按显存大小分配给多个 Pod。
  • 显存和算力隔离:多 Pod 共享单张 GPU 卡时进行显存和算力级别的隔离。

使用场景

在 CCE 集群中运行 GPU 应用时,可以解决 AI 训练等场景中独占整张卡造成资源浪费的情况,从而提高资源的使用率,降低成本。

限制说明

  • 仅支持 v1.18 版本的 Kubernetes 集群。
  • 目前该组件依赖于 CCE AI Job Scheduler,若您需要请一同安装,否则可能导致组件功能不可用。

安装组件

  1. 登录云平台官网,并进入管理控制台。
  2. 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
  3. 单击左侧导航栏中的 集群管理 > 集群列表
  4. 在集群列表页面中,单击目标集群名称进入集群管理页面。
  5. 在集群管理页面单击 组件管理
  6. 在组件管理列表中选择 CCE GPU Manager 组件单击“安装。
  7. 在确认安装弹出框中点击“确定”按钮完成组件的安装。
上一篇
组件概述
下一篇
CCE Deep Learning Frameworks Operator 说明