大规模GPU容器集群故障智能诊断与自愈、稳定性建设
Jensen Zhang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
某世界五百强企业高级技术专家,10余年云计算从业经验
浏览:30次
详情 DETAILS

课程简介

过去几年,随着大语言模型和 AIGC 领域的跨越式发展,人工智能正在迅速改变世界,并极大的推动了 AI 分布式训练和推理技术,以 GPU 为代表的智能算力正在逐渐成为 AI 领域不可或缺的一部分。随着 AI 模型变得越来越复杂,上层AI 应用和框架层出不穷,对 GPU 以及大规模 GPU 集群的需求只会越来越高。构建大规模、稳定性的 GPU 集群是现代企业所面临的新的关键性问题。

提升训练效率、降低成本、保障业务连续性等大模型时代的命题,帮助企业通过实时监测GPU利用率、带宽和日志刷新率等指标,可快速定位性能瓶颈(如通信异常或硬件故障),实现秒级恢复,避免单节点故障导致数百台GPU空转。智能诊断系统来精准定位故障节点,减少人工排查时间。基于LSTM模型预测GPU故障(准确率92.3%),动态调整算力分配,避免因突发流量导致的响应延迟。诸多技术难点,都将有足够的集群策略管理和应对。

本次分享将基于大规模GPU 智算集群下, 通过云原生方式对 GPU 智算集群进行统一管理,涵盖故障检测,故障告警,故障自愈,可观测,profiling 等手段提升智算集群的稳定性建设,帮助企业构建高效稳定的 GPU 训练与推理集群,提高模型训练效率保证有效训练时长,增强模型推理服务的稳定性。

课程收益

1、帮助学员了解全方位覆盖GPU 等场景故障检测项

2、通过可扩展的交互协议,以及故障告警通知,帮助学员构建完善的从故障发现,到自愈,以及上层业务平台感知处理的自愈体系。

3、帮助企业提升大规模GPU集群的资源使用率,有效提升训练时长,增强模型推理服务稳定性

受众人群

云计算与数据中心运维工程师、AI平台与机器学习工程师、DevOps与SRE工程师、系统架构师与基础设施开发者及技术管理者等从事大模型训练、运维管理的技术人员,以及其他对大模型训练感兴趣的人员

课程周期

0.5天(3H)

课程大纲

1、云原生Kubernetes 容器支撑智算底座

2、异构资源统一管理

3、GPU 可观测,以及故障自愈处理

4、AI Profiling 问题排查

5、QA

预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1