课程简介
为了实现AI负载在云环境的高效运行,除了对模型运行性能进行优化之外,分布式系统方面的配套优化也非常重要。同样的模型和算子实现,配套不同的分布式系统后,整体运行性能可能相差数倍之多。在LLM落地的过程中,企业已经投入大量人力在服务化、任务调度、分布式数据缓存等系统优化上,未来随着Agentic RL、多模态的发展,AI分布式负载更加复杂化,构建高效的分布式AI系统软件已成为AI落地的关键问题。
分布式AI系统软件解决了AI负载在云环境上高效运行的诸多问题,例如大模型推理服务的快速伸缩、负载均衡、PD分离、历史缓存加速,强化学习的多模型任务高效调度、训推参数快速切换,训练任务高可用,AI Agent的快速安全执行等。在企业落地实施上,通常一方面对现有的各种系统比如微服务系统进行增强,另一方面针对具体场景构建ad hoc的解决方案,基础能力难以跨场景复用。
本次分享以一种全新的解决思路,以分层架构构建分布式AI系统软件,统筹考虑大模型推理、强化学习、分布式训练、Agentic AI等场景的分布式系统软件优化诉求,有效一站式地解决这些问题,并在企业落地过程中取得良好的实践效果。
课程收益
1、帮助学员了解大模型推理、强化学习、分布式训练、Agentic AI对分布式系统的主要技术诉求;
2、帮助学员了解将大模型推理服务的弹性伸缩速度从分钟级优化到秒级、构建PD分离的大模型推理系统、以及实现X千卡高效强化学习调度的落地实践;
3、助力企业构建分布式AI系统软件,提升效率
受众人群
企业管理者、技术负责人、云架构师/开发工程师、AI工程师、DevOps工程师、数据科学家等就职企业IT部门的技术人员,以及其他对AI软件架构感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、分享分布式AI系统软件的整体框架
2、大模型推理实践:弹性伸缩、负载均衡、PD分离等
3、强化学习实践:训推全异步调度、参数重排、推理采样动态负载均衡等
4、AI Agent实践:安全沙箱快速启动、高并发异步调度等
5、分布式训练实践:分片CKPT快速保存/恢复
6、QA