GUI Agents技术路线、问题挑战与发展演进
Yves Yin 查看讲师
百林哲咨询(北京)有限公司专家团队成员
国际资深AI算法专家,清华本科、加州大学伯克利分校博士
浏览:44次
详情 DETAILS

课程简介

长期以来,图形用户界面(GUI)始终是人机交互的核心,它通过直观的视觉驱动方式让人们访问数字系统并与之互动。随着大语言模型(LLM)尤其是多模态模型的出现,GUI自动化迎来了新时代。这些模型在自然语言理解、代码生成和视觉处理方面展现出卓越能力,为新一代具有LLM智能的GUI代理铺平了道路。

这类代理能够解析复杂的GUI元素,并根据自然语言指令自主执行操作,实现了人机交互的范式转变,用户通过简单的对话命令即可完成精密的多步骤任务。其应用范围涵盖网页浏览、移动端应用交互和桌面自动化等领域,彻底重塑了个人与软件的交互方式,带来变革性的用户体验。这一新兴领域正在快速发展,学术界与工业界均取得重大进展。

本次分享对具有LLM智能的GUI代理技术展开综述,深入探讨其演进历程、核心组件与前沿技术。通过整合基础知识与前沿进展,旨在为研究者和实践者提供指引,助力突破技术瓶颈,充分释放具有LLM智能的GUI代理的全部潜能。

课程收益

1、帮助学员掌握人机交互革命的核心方法论,成为数字化普惠的推动者;

2、帮助学员提升人机协作效率,重构跨行业工作流程的底层逻辑;

3、帮助学员理解GUI Agents作为“数字劳动力”的属性,掌握参与下一代智能操作系统(如AI原生OS)研发的关键技术视角,成为行业创新引领者

受众人群

人工智能与机器学习领域相关技术人员、人机交互与用户体验设计师、自动化测试与RPA开发者、软件工程与开发工程师、算法工程师及其他对人工智能、人机交互、自动化技术感兴趣的科研人员、工程师及行业从业者

课程周期

 0.5天(3H)

课程大纲

1、分享GUI Agents的定义以及现有GUI Agents的框架模块和两大技术路线

1)基于提示的方法:利用大语言模型(LLM)执行指令驱动任务;

2)基于训练的方法:通过微调多模态模型适配特定应用,此外还将分享增强GUI Agentst性能的辅助技术。

2、 分享人近期GUI Agents相关的工作实践:UI-R1;

3、分享GUI智能体技术领域的几项关键挑战及发展演进方向,为推进GUI代理的技术发展提供重要见解。

4、QA

预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1