微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

人阅读 2024-10-29 11:57:48

10 月 29 日消息，科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。

而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

项目简介

微软为了克服这些障碍，推出了 OmniParser，是一种纯视觉基础的工具，旨在填补当前屏幕解析技术中的空白。

该工具并不需要依赖额外的上下文数据，可以理解更复杂的图形用户界面（GUI），是智能 GUI 自动化领域的一项令人兴奋的进展。

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等，不需要 HTML 标签或视图层次结构等显式基础数据，能够在桌面、移动设备和网页等上跨平台工作，提高用户界面的解析准确性。

OmniParser 除了识别屏幕上的元素，还能将这些元素转换成结构化的数据。

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如，在 ScreenSpot 数据集中，其准确率提高了 73%，显著超越依赖 HTML 解析的模型。

这一设计不仅能生成类似文档对象模型（DOM）的结构化表示，还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时，GPT-4V 在使用 OmniParser 输出后，图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明，OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。

OmniParser 的发布不仅拓宽了智能体的应用范围，也为开发者提供了一个强大的工具，助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser，普及这一前沿技术，将进一步推动多模态 AI 的发展，特别是在无障碍、自动化和智能用户辅助等领域。

附上参考地址

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured Elements
Microsoft’s New vision based GUI agent — OmniParser
OmniParser for Pure Vision Based GUI Agent

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

大数据

5G

LoRa

NB-IoT

ML/机器学习

区块链

云计算

雾计算

机器人

边缘计算

智能家居

智能安防

智能工业

智能医疗

智能农业

智慧城市

智能交通

智能环保

车联网

移动互联

业界新闻

企业要闻

产业政策

AI智能

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

项目背景

项目简介

测试表现

栏目文章

最近发表

标签列表

Powered By LOT物联网 闽ICP备2024036174号-1

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

项目背景

项目简介

测试表现

热门推荐

栏目文章

最近发表

标签列表

Powered By LOT物联网 闽ICP备2024036174号-1

Powered By LOT物联网闽ICP备2024036174号-1