课程简介
视频理解作为当前多模态大模型应用的关键场景之一,在安防监控、体育赛事分析、教育评估及智能交通等领域具有重要的应用价值。业界当前主要聚焦于时空特征高效建模、动态冗余压缩、多模态CoT推理等核心技术方向。随着AI Agent的快速发展,Training-free方案与视频Agent的创新研究日益受到广泛关注。
当前,超长视频输入、多模态RAG融合与Agentic AI新范式带来的挑战,对视频理解技术的系统级优化以及多模态Infra在计算效率、资源优化等方面提出了更高要求。我司针对视频理解模型和智能体、配套Infra等技术领域持续深耕,通过系统性创新实现了从全栈技术突破到多场景落地的全链条最佳实践。其中的技术实践主要包括下列三个要点:
(1)自研多模态大模型训练框架,支持多模态序列并行、样本packing等,从而推动模型的长视频理解能力提升;
(2)自研NebulaVideo大模型,支持视频时空定位等困难任务,可从小时级视频中精确定位事件与主体目标;
(3)设计与自研Agentic Video框架,结合开源推理大模型能力和自研的多模态RAG数据库与标准多模态Agent,免训练提升视频理解的精度和效率。
本次分享将探讨视频理解场景下,多模态大模型和相关智能体技术的算法与Infra的发展历史、技术演进趋势与企业的研发优化和应用落地的实践。
课程收益
1、帮助学员梳理视频理解任务在多模态大模型发展过程中的关键技术价值;
2、帮助学员探讨过去视频理解的技术挑战与关键突破,并指出未来可能的研究趋势;
3、助力企业发展出一套成熟的面向视频理解的多模态算法与应用框架
受众人群
视频理解技术研发人员、AI系统架构师与工程师、多模态学习研究者、智能媒体与教育科技从业者,以及希望提升技术视野、探索Agentic系统与Infra技术结合可能性的技术管理者与决策者
课程周期
0.5天(3H)
课程大纲
1、视频理解任务的核心价值与发展历程
2、多模态大模型处理视频的范式发展与对比
3、中兴在视频理解算法及Infra上的技术实践
4、中兴在视频理解场景的行业应用实践
5、视频理解技术趋势与展望
6、QA