GitHub 热门项目:dots.ocr

2026-05-28 1 阅读 GitHub Trending
GitHub 项目:dots.ocr 仓库地址:https://github.com/rednote-hilab/dots.ocr 星级:8881 | 作者:rednote-hilab 项目描述:单视觉语言模型中的多语言文档布局解析 =================================================== 自述文件内容:

点OCR [![HuggingFace](https://img.shields.io/badge/HuggingFace%20Weights-black.svg?logo=HuggingFace)](https://huggingface.co/rednote-hilab/dots.mocr) [![Arxiv](https://img.shields.io/badge/arXiv-Paper-B31B1B.svg?logo=arxiv)](https://arxiv.org/abs/2512.02498) ?️现场演示 | ?微信 | ?红记 | ? X

## 简介 **dots.ocr** 专为通用可访问性而设计,它具有识别几乎任何人类脚本的能力。除了在大小相当的模型之间的标准多语言文档解析中实现最先进的 (SOTA) 性能之外,dots.ocr-1.5 还擅长将结构化图形(例如图表和图表)直接转换为 SVG 代码、解析网页屏幕和识别场景文本。 ## 新闻 * ```2026.03.19 ``` 我们已将 `dots.ocr-1.5` 重新命名为 [dots.mocr](https://github.com/rednote-hilab/dots.mocr)。有关技术细节,请参阅我们的[论文](https://arxiv.org/abs/2603.13032v1)。模型权重可在 Hugging Face 上找到:[dots.mocr](https://huggingface.co/rednote-hilab/dots.mocr) 和 [dots.mocr-svg](https://huggingface.co/rednote-hilab/dots.mocr-svg)。 * ```2025.10.31 ``` ? 我们发布了 [dots.ocr.base](https://huggingface.co/rednote-hilab/dots.ocr.base),专注于 OCR 任务的基础 VLM,也是 [dots.ocr](https://huggingface.co/rednote-hilab/dots.ocr) 的基础模型。尝试一下! * ```2025.07.30 ``` ? 我们发布了 [dots.ocr](https://huggingface.co/rednote-hilab/dots.ocr),一个基于 1.7b llm 的多语言文档解析模型,具有 SOTA 性能。 ## 评价 ### 1. 文档解析 #### 1.1 最新型号之间不同基准的 Elo 分数 <表> <标题> 型号 olmOCR-Bench OmniDocBench (v1.5) XDocParse 平均 <正文> MonkeyOCR-pro-3B 895.0 811.3 637.1 781.1 GLM-OCR 884.2 972.6 820.7 892.5 PaddleOCR-VL-1.5 897.3 997.9 866.4 920.5 欢源OCR 997.6 1003.9 951.1 984.2