课程简介
随着生成式人工智能技术的快速发展,大模型正成为推动技术创新和业务变革的关键引擎。在这个大模型时代,无论是改善用户体验、员工体验、合作伙伴体验、供应链效率,还是加快IT创新和产品交付,企业对数字化转型的需求从未如此迫切。在加速推进数字化转型的过程中,IT运维面临着全新的挑战。IT团队需要变革性的技术来打破数据孤岛,理清系统运行状态,实现更快的故障响应、更准确的根因定位、更少的用户影响,确保系统稳定性,从而驱动数字化转型。
传统的监控手段在云原生背景下,难以有效帮助企业解决故障发现和故障定位的问题。现有的工具和分析模型智能化程度不够,运维数据尚未充分转化为有价值的运维知识,企业迫切需要变革性的技术方案来解决IT运维的痛点。基于Transform的大语言模型技术,结合可观测性平台,已成为当前智能运维领域广受关注的创新解决方案。
本次分享将深入探讨在可观测性平台及智能运维中,应用大模型技术涉及到的模型选型、微调、预训练和检索增强生成(RAG)等方面的挑战,重点讨论OPS LLM在企业实际应用中的经验和挑战,探讨解决方案和最佳实践。
课程收益
1、帮助学员理解大模型时代IT运维和可观测性所面临的新挑战,包括数据孤岛、系统状态复杂性及快速响应需求等;
2、帮助学员了解到大语言模型技术在可观测性平台和AIOps中的具体应用,以及如何提升故障发现、根因定位和运维效率;
3、帮助学员了解运维大语言模型训练过程中遇到的技术、资源和管理方面的挑战,收获相应的解决方案和最佳实践;
4、帮助学员了解大模型技术在金融行业落地过程中的具体实施步骤和经验,帮助企业更好地推进智能运维项目
受众人群
运维工程师、运维开发工程师、研发工程师、架构师、技术管理者等对智能运维感兴趣的人员
课程周期
1天(6H)
课程大纲
标题 | 授课内容 |
一、大模型时代带来的技术变革与复杂性(10 分钟) | 1. 大模型时代的技术变革与复杂性 2. 技术维度:系统稳定性迎来全新挑战 3. 组织维度:信息孤岛导致没有可信的“单一事实来源” 4. 基于传统机器学习的AIOPS 泡沫破灭 |
二、大模型时代的统一可观测性(3 小时) | 1. 大模型时代的统一可观测性平台全景 2. 使用统一可观测性平台打破数据孤岛 3. 统一可观测性平台实现要素 (1) 实体:如何构建实体模型,并建立关系 (2) 指标体系:指标如何分层、标准化语义和平衡高基维 (3) 多维探索:如何基于数据湖仓构建多维度自由探索 (4) 端到端的可观测性:业务、终端、网络、应用服务、基础资源各层级可观测性场景构建 (5) 异常检测:如何识别异常及算法适用场景、如何配置异常检测规则等 (6) 根因分析:收敛规则及更近一步的根因分析 4. 统一可观测性平台实践细节 (1) 采集即治理、治理路径 (2) 数据存储模型、查询优化 (3) 如果构建面向拓扑的运维 (4) 商业产品 VS 开源 VS 自研 TOC 成本对比 |
三、大模型在智能运维场景中的落地实践(2 小时) | 1. 大模型的演进给智能运维带来新的机遇 2. 运维领域落地方向:Text-To-SQL、Copilot、RAG、Mutil-Agent 3. 大模型应用开发平台 4. OPS LLM (1) 基于大模型的可观测性平台体系架构 (2) 应用场景一:自动根因分析 (3) 应用场景二:自然语言访问数据 (4) 应用场景三:分布式链路疑似问题推理 (5) 应用场景四:代码异常见解 5. LLM OPS (1) LLM 可观测性建模 (2) LLM 可观测性 |
四、大模型训练的挑战与解决方案(30 分钟) | 1. 模型微调的挑战与策略 2. RAG探索与模型局限 3. 充分利用模型能力与自研检索 |
五、QA(30 分钟) | 1. QA |