课程简介
长期以来,图形用户界面(GUI)始终是人机交互的核心,它通过直观的视觉驱动方式让人们访问数字系统并与之互动。随着大语言模型(LLM)尤其是多模态模型的出现,GUI自动化迎来了新时代。这些模型在自然语言理解、代码生成和视觉处理方面展现出卓越能力,为新一代具有LLM智能的GUI代理铺平了道路。
这类代理能够解析复杂的GUI元素,并根据自然语言指令自主执行操作,实现了人机交互的范式转变,用户通过简单的对话命令即可完成精密的多步骤任务。其应用范围涵盖网页浏览、移动端应用交互和桌面自动化等领域,彻底重塑了个人与软件的交互方式,带来变革性的用户体验。这一新兴领域正在快速发展,学术界与工业界均取得重大进展。
本次分享对具有LLM智能的GUI代理技术展开综述,深入探讨其演进历程、核心组件与前沿技术。通过整合基础知识与前沿进展,旨在为研究者和实践者提供指引,助力突破技术瓶颈,充分释放具有LLM智能的GUI代理的全部潜能。
课程收益
1、帮助学员掌握人机交互革命的核心方法论,成为数字化普惠的推动者;
2、帮助学员提升人机协作效率,重构跨行业工作流程的底层逻辑;
3、帮助学员理解GUI Agents作为“数字劳动力”的属性,掌握参与下一代智能操作系统(如AI原生OS)研发的关键技术视角,成为行业创新引领者
受众人群
人工智能与机器学习领域相关技术人员、人机交互与用户体验设计师、自动化测试与RPA开发者、软件工程与开发工程师、算法工程师及其他对人工智能、人机交互、自动化技术感兴趣的科研人员、工程师及行业从业者
课程周期
0.5天(3H)
课程大纲
1、分享GUI Agents的定义以及现有GUI Agents的框架模块和两大技术路线
1)基于提示的方法:利用大语言模型(LLM)执行指令驱动任务;
2)基于训练的方法:通过微调多模态模型适配特定应用,此外还将分享增强GUI Agentst性能的辅助技术。
2、 分享人近期GUI Agents相关的工作实践:UI-R1;
3、分享GUI智能体技术领域的几项关键挑战及发展演进方向,为推进GUI代理的技术发展提供重要见解。
4、QA