课程简介
随着 AI 浪潮的席卷,企业对 GPU 的需求日益增长,随之而来的 GPU 资源成本也持续攀升。在多样化的 AI 应用场景和不断演进的 AI 框架下,构建一个能够灵活支撑各类业务、实现高效 GPU 资源利用的平台,成为企业需解决的核心问题。企业不仅要关注 GPU 的供给与调度,还要思考通过云原生技术,实现资源的弹性分配与精细化管理,提升整体算力利用率,降低运维和成本压力。
GPU 的使用场景与传统的 CPU 存在本质差异。在 AI 平台的实际应用中,算法团队、产品团队和工程团队对 GPU 资源的需求各不相同。在模型训练和推理等不同场景下,不同的推理模型框架下,GPU 的使用方式和资源分配策略也存在明显差异。实现这一目标,需要平台具备灵活的资源调度能力、精细的权限与配额管理,以及对不同业务场景的深度适配,从而为企业的 AI 创新提供高效、可持续的算力支撑。
本次分享将重点探讨 GPU 资源的精细化调度运营、资源提效与配额管理。在满足企业内部多样化业务需求的基础上,如何进行 GPU 混部,资源超卖,此外还将结合 Serverless 技术,将未被占用的 GPU 资源通过分时包月、按量计费等方式对外公网售卖。充分利用闲置资源,为企业有效降低算力成本。
课程收益
1、帮助学员掌握云原生 AI 平台构建核心技能,助力企业技术架构升级;
2、帮助学员精准洞察业务场景,实现 GPU 资源高效利用与成本优化;
3、帮助企业创新 GPU 运营模式,开辟企业收入增长新路径
受众人群
企业管理者、技术专家、AI算法工程师、AI平台架构师、云计算工程师、大数据工程师及其他对AI平台建设感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、 基于Kubernetes构建云原生AI平台。
2、 GPU 配额体系管理介绍。
3、 GPU 资源分级介绍。
4、利用Serverless技术,实现内外部用户分时复用GPU资源。
5、QA