开源推荐
morning
GitHub 热门项目:dots.ocr
2026-05-28
1 阅读
GitHub Trending
GitHub 项目:dots.ocr
仓库地址:https://github.com/rednote-hilab/dots.ocr
星级:8881 | 作者:rednote-hilab
项目描述:单视觉语言模型中的多语言文档布局解析
===================================================
自述文件内容:
## 简介
**dots.ocr** 专为通用可访问性而设计,它具有识别几乎任何人类脚本的能力。除了在大小相当的模型之间的标准多语言文档解析中实现最先进的 (SOTA) 性能之外,dots.ocr-1.5 还擅长将结构化图形(例如图表和图表)直接转换为 SVG 代码、解析网页屏幕和识别场景文本。
## 新闻
* ```2026.03.19 ``` 我们已将 `dots.ocr-1.5` 重新命名为 [dots.mocr](https://github.com/rednote-hilab/dots.mocr)。有关技术细节,请参阅我们的[论文](https://arxiv.org/abs/2603.13032v1)。模型权重可在 Hugging Face 上找到:[dots.mocr](https://huggingface.co/rednote-hilab/dots.mocr) 和 [dots.mocr-svg](https://huggingface.co/rednote-hilab/dots.mocr-svg)。
* ```2025.10.31 ``` ? 我们发布了 [dots.ocr.base](https://huggingface.co/rednote-hilab/dots.ocr.base),专注于 OCR 任务的基础 VLM,也是 [dots.ocr](https://huggingface.co/rednote-hilab/dots.ocr) 的基础模型。尝试一下!
* ```2025.07.30 ``` ? 我们发布了 [dots.ocr](https://huggingface.co/rednote-hilab/dots.ocr),一个基于 1.7b llm 的多语言文档解析模型,具有 SOTA 性能。
## 评价
### 1. 文档解析
#### 1.1 最新型号之间不同基准的 Elo 分数
<表>
<标题>
型号
olmOCR-Bench
OmniDocBench (v1.5)
XDocParse
平均
标题>
<正文>
MonkeyOCR-pro-3B
895.0
811.3
637.1
781.1
GLM-OCR
884.2
972.6
820.7
892.5
PaddleOCR-VL-1.5
897.3
997.9
866.4
920.5
欢源OCR
997.6
1003.9
951.1
984.2