课程简介
在Data+AI的战略目标下,深刻理解数据工程的核心需求、构建AI原生的数据处理能力、厘清前沿大模型的技术边界,是构建智能化数据工程体系、实现数据价值高效释放的关键路径。数据工程作为数据智能的核心环节,在复杂业务场景中面临严峻挑战:如原生数据质量参差不齐、高质量数据稀缺、以及传统处理流程智能化程度低,共同构成了数据工程提质增效的主要瓶颈。
企业通过融合大语言模型技术,在数据工程领域实现了三大突破:首先,构建了人机协同的数据标注与质检流程,通过LLM实现自动化数据预标注与质检;其次,利用数据生成能力构建垂类场景开发测试流程,解决特定领域测试数据稀缺问题;最后,通过数据筛选与生成能力构建垂类数据智能体微调数据,实现领域知识的持续沉淀与优化。
本次分享将深入探讨大模型如何赋能数据工程,涵盖智能标注架构、可控数据生成等关键技术,为企业构建精准、高效的数据生产体系提供实践指导,推动数据智能应用的规模化落地。
课程收益
1、帮助学员掌握大模型驱动的数据工程全流程优化方法,实现数据处理效率与成本双降;
2、帮助学员构建大模型增强型数据生成能力,沉淀高价值、可复用的企业级数据资产;
3、帮助学员重构数据工程职能定位,从“成本中心”升级为“数据智能应用落地的核心引擎”
受众人群
数据工程师、数据架构师、数据治理专员、算法工程师、NLP工程师、AI产品经理、商业分析师、运营经理、产品经理、数据平台负责人、技术总监、企业管理者,以及其他对数据治理感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、分享大数据场景下数据工程背景以及挑战
2、大模型生成技术带来的启发(智能标注架构、可控数据生成等)
3、分享能力建设路径与应用、案例
4、总结与展望
5、QA