大规模GPU容器集群故障智能诊断与自愈、稳定性建设

Jensen Zhang 查看讲师

百林哲咨询（北京）有限公司专家团队成员

某世界五百强企业高级技术专家，10余年云计算从业经验

浏览：30次

详情 DETAILS

课程简介

过去几年，随着大语言模型和 AIGC 领域的跨越式发展，人工智能正在迅速改变世界，并极大的推动了 AI 分布式训练和推理技术，以 GPU 为代表的智能算力正在逐渐成为 AI 领域不可或缺的一部分。随着 AI 模型变得越来越复杂，上层AI 应用和框架层出不穷，对 GPU 以及大规模 GPU 集群的需求只会越来越高。构建大规模、稳定性的 GPU 集群是现代企业所面临的新的关键性问题。

提升训练效率、降低成本、保障业务连续性等大模型时代的命题，帮助企业通过实时监测GPU利用率、带宽和日志刷新率等指标，可快速定位性能瓶颈（如通信异常或硬件故障），实现秒级恢复，避免单节点故障导致数百台GPU空转。智能诊断系统来精准定位故障节点，减少人工排查时间。基于LSTM模型预测GPU故障（准确率92.3%），动态调整算力分配，避免因突发流量导致的响应延迟。诸多技术难点，都将有足够的集群策略管理和应对。

本次分享将基于大规模GPU 智算集群下，通过云原生方式对 GPU 智算集群进行统一管理，涵盖故障检测，故障告警，故障自愈，可观测，profiling 等手段提升智算集群的稳定性建设，帮助企业构建高效稳定的 GPU 训练与推理集群，提高模型训练效率保证有效训练时长，增强模型推理服务的稳定性。

课程收益

1、帮助学员了解全方位覆盖GPU 等场景故障检测项

2、通过可扩展的交互协议，以及故障告警通知，帮助学员构建完善的从故障发现，到自愈，以及上层业务平台感知处理的自愈体系。

3、帮助企业提升大规模GPU集群的资源使用率，有效提升训练时长，增强模型推理服务稳定性

受众人群

云计算与数据中心运维工程师、AI平台与机器学习工程师、DevOps与SRE工程师、系统架构师与基础设施开发者及技术管理者等从事大模型训练、运维管理的技术人员，以及其他对大模型训练感兴趣的人员

课程周期

0.5天（3H）

课程大纲

1、云原生Kubernetes 容器支撑智算底座

2、异构资源统一管理

3、GPU 可观测，以及故障自愈处理

4、AI Profiling 问题排查

5、QA

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

次