Ovis多模态大模型:结构对齐下的视觉语言融合
Sylvan Lu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
某世界五百强企业高级算法专家
浏览:62次
详情 DETAILS

课程简介

近年来,大语言模型(LLM)取得了显著进展,为通用人工智能(AGI)带来了曙光。然而,纯文本信息难以涵盖人类智能的复杂性与多样性。为此,多模态大型语言模型(MLLM)应运而生,赋予模型感知和理解视觉信息的能力。目前,主流开源MLLM通常以预训练LLM和ViT为基础,分别通过索引嵌入表生成文本嵌入、通过MLP生成视觉嵌入,导致文本嵌入与视觉嵌入在结构上存在差异,影响多模态信息的深度融合。

针对这一挑战,我们提出了新型MLLM架构Ovis。Ovis借鉴LLM的文本嵌入策略,引入可学习的视觉嵌入表,将视觉特征转化为概率化的视觉token,并通过多次索引加权生成视觉嵌入,从而实现视觉与文本嵌入的结构化对齐与高效融合。

本次分享将重点研讨Ovis的架构设计、训练策略、性能表现及开源进展,结合其在电商等典型业务场景下的应用案例,深入探讨Ovis在实际落地过程中的技术创新与挑战,并展望多模态大模型未来的发展趋势。给予AI从业者借鉴,共同推动智能化行业技术进步与创新实践。

课程收益

1、帮助学员掌握多模态大模型结构对齐的核心设计方法,突破视觉-语言融合技术瓶颈

2、帮助学员精通多阶段训练策略与数据构造方法,高效复现并迭代高性能多模态模型;

3、帮助学员洞察Ovis模型演进路径与开源生态,抢占多模态技术商业化先机

受众人群

计算机视觉与自然语言处理(CV/NLP)工程师、算法工程师等从事多模态人工智能、跨模态学习、视觉语言理解的技术人员,以及其他对视觉语言理解感兴趣的人员

课程周期

0.5天(3H)

课程大纲

1、详细解析模型架构

Ovis通过创新的视觉嵌入表设计,实现视觉与文本嵌入的结构化对齐。

2、分享模型训练流程策略

Ovis的多阶段训练流程,以及如何构造多样化的训练数据,逐步提升模型的综合能力。

3、分享性能表现与典型模型能力:

展示Ovis在多个主流基准测试中的优异表现,同时呈现典型案例以直观体现模型能力。

4、开源情况与进展

Ovis从1.0到1.5、1.6、2.0的版本迭代历程及其开源情况。

5、QA


预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1