课程简介
随着人工智能特别是大模型技术的不断演进,数据已经成为推动模型训练和推理性能持续跃升的核心要素之一。数据规模的指数级增长,叠加对实时处理能力和成本敏感性的提升,使得传统存储架构在灵活性、性能和可管理性方面面临前所未有的挑战。与此同时,Kubernetes 已成为 AI 工作负载调度和资源编排的主流平台,带动了“云原生 + AI”架构的加速融合。
在这一背景下,完成对海量 AI 数据的组织、调度和共享,已经成为行业内普遍关注的问题。对于上万个 Pod 的大规模业务,企业在存储消费方式上选择各异——有的使用 CSI,有的依赖 Fluid,有的通过 hostPath 直连以满足特定的管理需求。然而,不同方案在可扩展性、性能瓶颈与后期架构演进上的差异显著,如何在灵活性、性能和可维护性之间取得平衡,已成为设计 AI 数据基础设施时的关键价值点。
本次分享将深入剖析对象存储与传统文件系统在云原生环境中的适配局限,分享 JuiceFS 面对Kubernetes 中海量存储规模的挑战,并结合生产级案例,探讨通过自动化配置、多级缓存、观测性增强等手段,提升大规模集群下的资源利用率和系统稳定性。为正在构建 AI 数据基础设施的开发者与架构师,提供可落地的技术路径与架构参考。
课程收益
1、帮助学员了解大规模 AI 训练中的存储挑战,以及在 Kubernetes 环境中企业可能面临的存储问题;
2、帮助学员了解现有存储方案的优缺点,帮助企业更好地选择适合的存储架构;
3、帮助学员了解AI数据存储实践,以多个大规模集群的生产环境,促进整个社区的技术共享与进步
受众人群
AI应用架构师、大数据工程师、云计算工程师、算法工程师、运维工程师、数据科学家与AI研究员及技术管理者,以及其他对AI技术感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、AI 训练关键场景的 I/O 模式与存储挑战
2、Kubernetes 环境中的大规模数据集群存储挑战
3、JuiceFS 及其 CSI Driver 的架构设计
4、案例:Kubernetes 集群运维实践
5、QA