GUI Agents技术路线、问题挑战与发展演进

Yves Yin 查看讲师

百林哲咨询（北京）有限公司专家团队成员

国际资深AI算法专家，清华本科、加州大学伯克利分校博士

浏览：44次

详情 DETAILS

课程简介

长期以来，图形用户界面（GUI）始终是人机交互的核心，它通过直观的视觉驱动方式让人们访问数字系统并与之互动。随着大语言模型（LLM）尤其是多模态模型的出现，GUI自动化迎来了新时代。这些模型在自然语言理解、代码生成和视觉处理方面展现出卓越能力，为新一代具有LLM智能的GUI代理铺平了道路。

这类代理能够解析复杂的GUI元素，并根据自然语言指令自主执行操作，实现了人机交互的范式转变，用户通过简单的对话命令即可完成精密的多步骤任务。其应用范围涵盖网页浏览、移动端应用交互和桌面自动化等领域，彻底重塑了个人与软件的交互方式，带来变革性的用户体验。这一新兴领域正在快速发展，学术界与工业界均取得重大进展。

本次分享对具有LLM智能的GUI代理技术展开综述，深入探讨其演进历程、核心组件与前沿技术。通过整合基础知识与前沿进展，旨在为研究者和实践者提供指引，助力突破技术瓶颈，充分释放具有LLM智能的GUI代理的全部潜能。

课程收益

1、帮助学员掌握人机交互革命的核心方法论，成为数字化普惠的推动者；

2、帮助学员提升人机协作效率，重构跨行业工作流程的底层逻辑；

3、帮助学员理解GUI Agents作为“数字劳动力”的属性，掌握参与下一代智能操作系统（如AI原生OS）研发的关键技术视角，成为行业创新引领者

受众人群

人工智能与机器学习领域相关技术人员、人机交互与用户体验设计师、自动化测试与RPA开发者、软件工程与开发工程师、算法工程师及其他对人工智能、人机交互、自动化技术感兴趣的科研人员、工程师及行业从业者

课程周期

0.5天（3H）

课程大纲

1、分享GUI Agents的定义以及现有GUI Agents的框架模块和两大技术路线

1）基于提示的方法：利用大语言模型（LLM）执行指令驱动任务；

2）基于训练的方法：通过微调多模态模型适配特定应用，此外还将分享增强GUI Agentst性能的辅助技术。

2、分享人近期GUI Agents相关的工作实践：UI-R1；

3、分享GUI智能体技术领域的几项关键挑战及发展演进方向，为推进GUI代理的技术发展提供重要见解。

4、QA

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

次