百度新开源了 OCR 模型 PaddleOCR-VL-1.5,连这种手机随手拍、纸张有折痕的图都识别的一清二楚。 整体测下来,在复杂场景(尤其是变形)的情况下, 表现很不错: 1️⃣ 纸张发皱、变形: 特意揉了好几下,手机随手拍的,个别肉眼都需要仔细看的字,也都识别出来了。 2️⃣ 拍屏幕(带倾斜) 表格结构完全还原,文字没跑偏,复选框也识别出来了,这点好评。 3️⃣ 数学试卷、手写笔记 题号、问题和答案的排版格式都是对的。有个别生僻公式没认出来,但整体结构没乱,可用性很高。还测了一些手写文字、公式,仅个别潦草字识别不准。 4️⃣ 合同、论文 合同里的红章没有干扰文字识别,而且被单独提取出来了,论文里的复杂图表也是被单独识别。 👉 说实话,能跑出这个效果倒没太意外。 PaddleOCR-VL 系列底子一直很厚,在 1.0 版本发布时,就拿过权威文档解析评测榜单 OmniBenchDoc V1.5的全球第一。 这次的 1.5 版本主要提升在: 1️⃣ 全球首个“异形框定位”能力: 能够精准识别「歪」文档,包括不规则、变形、屏幕。 2️⃣ 小参数高精度: 0.9B 的参数,精度达到 94.5%,超过Gemini 3 Pro、DeepSeekOCR等模型。 3️⃣ 文档理解:从识别字符进化到了理解文档,新增了跨页表格合并、印章分离等能力。 百度在 OCR 这块有点东西的 👍 ! PaddleOCR 这个项目在 GitHub 上已经有 69k Star 了。这种能低成本部署、且能处理非结构化数据的开源工具,是开发者工具箱里值得保留的一个选项。 #OCR #文字识别 #大模型 #文心 #百度 #PaddleOCR #人工智能 #AI #开源