课程简介
近年来,大语言模型(LLM)取得了显著进展,为通用人工智能(AGI)带来了曙光。然而,纯文本信息难以涵盖人类智能的复杂性与多样性。为此,多模态大型语言模型(MLLM)应运而生,赋予模型感知和理解视觉信息的能力。目前,主流开源MLLM通常以预训练LLM和ViT为基础,分别通过索引嵌入表生成文本嵌入、通过MLP生成视觉嵌入,导致文本嵌入与视觉嵌入在结构上存在差异,影响多模态信息的深度融合。
针对这一挑战,我们提出了新型MLLM架构Ovis。Ovis借鉴LLM的文本嵌入策略,引入可学习的视觉嵌入表,将视觉特征转化为概率化的视觉token,并通过多次索引加权生成视觉嵌入,从而实现视觉与文本嵌入的结构化对齐与高效融合。
本次分享将重点研讨Ovis的架构设计、训练策略、性能表现及开源进展,结合其在电商等典型业务场景下的应用案例,深入探讨Ovis在实际落地过程中的技术创新与挑战,并展望多模态大模型未来的发展趋势。给予AI从业者借鉴,共同推动智能化行业技术进步与创新实践。
课程收益
1、帮助学员掌握多模态大模型结构对齐的核心设计方法,突破视觉-语言融合技术瓶颈;
2、帮助学员精通多阶段训练策略与数据构造方法,高效复现并迭代高性能多模态模型;
3、帮助学员洞察Ovis模型演进路径与开源生态,抢占多模态技术商业化先机
受众人群
计算机视觉与自然语言处理(CV/NLP)工程师、算法工程师等从事多模态人工智能、跨模态学习、视觉语言理解的技术人员,以及其他对视觉语言理解感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、详细解析模型架构
Ovis通过创新的视觉嵌入表设计,实现视觉与文本嵌入的结构化对齐。
2、分享模型训练流程策略
Ovis的多阶段训练流程,以及如何构造多样化的训练数据,逐步提升模型的综合能力。
3、分享性能表现与典型模型能力:
展示Ovis在多个主流基准测试中的优异表现,同时呈现典型案例以直观体现模型能力。
4、开源情况与进展
Ovis从1.0到1.5、1.6、2.0的版本迭代历程及其开源情况。
5、QA