课程简介
大模型正推动新一波AI浪潮,推动云计算服务的范式发生变化。同时,大模型也带动算力需求激增,这些都决定了行业更加需要强大的模型+基础设施。
今天,大模型开发风起云涌,模型即服务随之呼之欲出,各行各业都在积极拥抱这一变化。智能计算,生成式AI,产业大模型,科学智算相继涌现,对AI基础设施同样也提出更高的要求。动辄千亿、万亿参数模型的训练和应用,均依赖从算力、框架到开发平台的体系化AI基础设施及工程平台能力。
本次分享将结合阿里云服务内外部大模型研究的实践,充分展开AI智算平台的技术创新和应用。
课程收益
目标:
1、 智算集群创新:高性能网络、高性能文件存储、高性能计算节点
2、 软件及框架优化:分布式训练、自动容错弹性训练、RLHF训练框架、LLM压缩、推理优化等
3、 工程平台:serverless化、工程化、稳定性保障
成功要点:
1、以先进智算能力,全面从集群、框架到开发平台的体系化,构建完善成功的AI基础设施及工程平台能力。
启示:
当今AI行业发展的基础设施必须做到软硬结合,以提升端到端的资源有效利用率和端到端的开发效率。帮助学员掌握数据能力模型建立
受众人群
1、架构工程师、架构经理、架构总监
2、运维工程师
3、测试工程师
4、对系统的设计、开发、部署、测试和运维感兴趣的学员
课程周期
3H
课程大纲
1. MaaS时代,先进的AI基础设施
2. 阿里云的最佳实践
3. PAI灵骏智算服务浅析及核心技术
a. 高性能集群
b. AI加速器
c. 工程平台、MLOps
d. 与AI MaaS社区的联动
4.PAI灵骏智算服务支撑MaaS创新