大规模AI平台建设：利用云原生高效使用GPU

Sylvan Song 查看讲师

百林哲咨询（北京）有限公司专家团队成员

某世界五百强企业容器技术专家

浏览：32次

详情 DETAILS

课程简介

随着 AI 浪潮的席卷，企业对 GPU 的需求日益增长，随之而来的 GPU 资源成本也持续攀升。在多样化的 AI 应用场景和不断演进的 AI 框架下，构建一个能够灵活支撑各类业务、实现高效 GPU 资源利用的平台，成为企业需解决的核心问题。企业不仅要关注 GPU 的供给与调度，还要思考通过云原生技术，实现资源的弹性分配与精细化管理，提升整体算力利用率，降低运维和成本压力。

GPU 的使用场景与传统的 CPU 存在本质差异。在 AI 平台的实际应用中，算法团队、产品团队和工程团队对 GPU 资源的需求各不相同。在模型训练和推理等不同场景下，不同的推理模型框架下，GPU 的使用方式和资源分配策略也存在明显差异。实现这一目标，需要平台具备灵活的资源调度能力、精细的权限与配额管理，以及对不同业务场景的深度适配，从而为企业的 AI 创新提供高效、可持续的算力支撑。

本次分享将重点探讨 GPU 资源的精细化调度运营、资源提效与配额管理。在满足企业内部多样化业务需求的基础上，如何进行 GPU 混部，资源超卖，此外还将结合 Serverless 技术，将未被占用的 GPU 资源通过分时包月、按量计费等方式对外公网售卖。充分利用闲置资源，为企业有效降低算力成本。

课程收益

1、帮助学员掌握云原生 AI 平台构建核心技能，助力企业技术架构升级；

2、帮助学员精准洞察业务场景，实现 GPU 资源高效利用与成本优化；

3、帮助企业创新 GPU 运营模式，开辟企业收入增长新路径

受众人群

企业管理者、技术专家、AI算法工程师、AI平台架构师、云计算工程师、大数据工程师及其他对AI平台建设感兴趣的人员

课程周期

0.5天（3H）

课程大纲

1、基于Kubernetes构建云原生AI平台。

2、 GPU 配额体系管理介绍。

3、 GPU 资源分级介绍。

4、利用Serverless技术，实现内外部用户分时复用GPU资源。

5、QA

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

次