课程简介
过去几年,随着大语言模型和 AIGC 领域的跨越式发展,人工智能正在迅速改变世界,并极大的推动了 AI 分布式训练和推理技术,以 GPU 为代表的智能算力正在逐渐成为 AI 领域不可或缺的一部分。随着 AI 模型变得越来越复杂,上层AI 应用和框架层出不穷,对 GPU 以及大规模 GPU 集群的需求只会越来越高。构建大规模、稳定性的 GPU 集群是现代企业所面临的新的关键性问题。
提升训练效率、降低成本、保障业务连续性等大模型时代的命题,帮助企业通过实时监测GPU利用率、带宽和日志刷新率等指标,可快速定位性能瓶颈(如通信异常或硬件故障),实现秒级恢复,避免单节点故障导致数百台GPU空转。智能诊断系统来精准定位故障节点,减少人工排查时间。基于LSTM模型预测GPU故障(准确率92.3%),动态调整算力分配,避免因突发流量导致的响应延迟。诸多技术难点,都将有足够的集群策略管理和应对。
本次分享将基于大规模GPU 智算集群下, 通过云原生方式对 GPU 智算集群进行统一管理,涵盖故障检测,故障告警,故障自愈,可观测,profiling 等手段提升智算集群的稳定性建设,帮助企业构建高效稳定的 GPU 训练与推理集群,提高模型训练效率保证有效训练时长,增强模型推理服务的稳定性。
课程收益
1、帮助学员了解全方位覆盖GPU 等场景故障检测项
2、通过可扩展的交互协议,以及故障告警通知,帮助学员构建完善的从故障发现,到自愈,以及上层业务平台感知处理的自愈体系。
3、帮助企业提升大规模GPU集群的资源使用率,有效提升训练时长,增强模型推理服务稳定性
受众人群
云计算与数据中心运维工程师、AI平台与机器学习工程师、DevOps与SRE工程师、系统架构师与基础设施开发者及技术管理者等从事大模型训练、运维管理的技术人员,以及其他对大模型训练感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、云原生Kubernetes 容器支撑智算底座
2、异构资源统一管理
3、GPU 可观测,以及故障自愈处理
4、AI Profiling 问题排查
5、QA