GitHub 热门项目:OmniParser

2026-05-26 1 阅读 GitHub Trending
GitHub 项目:OmniParser 仓库地址:https://github.com/microsoft/OmniParser 星级:24805 | 作者:微软 项目描述:一个简单的屏幕解析工具,用于基于纯视觉的GUI代理 =================================================== 自述文件内容: # OmniParser:基于纯视觉的 GUI 代理的屏幕解析工具 徽标

[![arXiv](https://img.shields.io/badge/Paper-green)](https://arxiv.org/abs/2408.00203) [![许可证](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) ? [[项目页面](https://microsoft.github.io/OmniParser/)] [[V2 博客文章](https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/)] [[模型 V2](https://huggingface.co/microsoft/OmniParser-v2.0)] [[模型V1.5](https://huggingface.co/microsoft/OmniParser)] [[HuggingFace 空间演示](https://huggingface.co/spaces/microsoft/OmniParser-v2)] **OmniParser** 是一种将用户界面屏幕截图解析为结构化且易于理解的元素的综合方法,它显着增强了 GPT-4V 生成可以准确地扎根于界面相应区域的操作的能力。 ## 新闻 - [2025/3] 我们支持本地轨迹记录,以便您可以使用 OmniParser+OmniTool 为您所在域中最喜欢的代理构建训练数据管道。 [文档开发中] - [2025/3] 我们正在逐步添加多代理编排并改进 OmniTool 中的用户界面,以获得更好的体验。 - [2025/2] 我们发布 OmniParser V2 [检查点](https://huggingface.co/microsoft/OmniParser-v2.0)。 [观看视频](https://1drv.ms/v/c/650b027c18d5a573/EWXbVESKWo9Buu6OYCwg06wBeoM97C6EOTG6RjvWLEN1Qg?e=alnHGC) - [2025/2] 我们推出 OmniTool:使用 OmniParser + 您选择的视觉模型控制 Windows 11 VM。 OmniTool 支持开箱即用的以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。 [观看视频](https://1drv.ms/v/c/650b027c18d5a573/EehZ7RzY69ZHn-MeQHrnnR4BCj3by-cLLpUVlxMjF4O65Q?e=8LxMgX) - [2025/1] V2即将到来。我们使用 OmniParser v2(即将发布)在新的接地基准 [Screen Spot Pro](https://github.com/likaixin2000/ScreenSpot-Pro-GUI-Grounding/tree/main) 上取得了新的最先进结果 39.5%!阅读更多详细信息[此处](https://github.com/microsoft/OmniParser/tree/master/docs/Evaluation.md)。 - [2024/11] 我们发布了更新版本 OmniParser V1.5,其特点是 1) 更细粒度/小图标检测,2) 预测每个屏幕元素是否可交互。 demo.ipynb 中的示例。 - [2024/10] OmniParser 是 Huggingface 模型中心上排名第一的趋势模型(自 2024 年 10 月 29 日开始)。 - [2024/10] 欢迎在 [huggingface space](https://huggingface.co/spaces/microsoft/OmniParser) 上查看我们的演示! (敬请关注 OmniParser + Claude 计算机使用) - [2024/10] 交互式区域检测模型和