百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

2026-06-02 14:59:08
来源:IT之家
分享
AIME

问财摘要

1、百度发布PaddleOCR-VL-1.6,该模型在OmniDocBench v1.6评测中准确率突破96.3%,综合性能全球第一,刷新业界SOTA。该模型在文本、公式、表格等核心识别能力上全面领先当前主流开源及闭源方案,在表格、古籍、生僻字识别等复杂场景能力显著提升。 2、PaddleOCR-VL-1.6已上线PaddleOCR官网,支持网页端和API调用。
免责声明 内容由AI生成
文章提及标的
百度--

近日,百度(BIDU)正式发布PaddleOCR-VL-1.6。作为文心衍生模型,PaddleOCR-VL-1.6在OmniDocBench v1.6权威评测中准确率突破96.3%,在Real5-OmniDocBench、OmniDocBench v1.5上也取得了最领先的分数,综合性能全球第一,刷新业界SOTA,在复杂文档理解和真实场景解析能力方面进一步突破。

在 OmniDocBench v1.6上,PaddleOCR-VL-1.6在多项能力中实现SOTA

在权威评测集OmniDocBench v1.6上,PaddleOCR-VL-1.6总指标达到96.33%,超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等,综合性能全球第一,领跑全球通用大模型和专用OCR模型;在面向真实复杂场景构建的Real5-OmniDocBench评测中,PaddleOCR-VL-1.6总指标达到93.19%,较Gemini-3-Pro提升近4个百分点,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等五大真实场景下均保持领先表现。

测试结果显示,PaddleOCR-VL-1.6在文本、公式、表格等核心识别能力上全面领先当前主流开源及闭源方案,在表格、古籍、生僻字识别等复杂场景能力显著提升,在印章、Spotting、图表识别等多项关键能力同步增强,可更好满足文档数字化的需求。

据了解,PaddleOCR基于文心大模型训练而来,是文心大模型多模态能力的重要部分,支持超100种语言识别,用户覆盖170多个国家和地区。此次发布的PaddleOCR-VL-1.6在PaddleOCR-VL-1.5基础上进一步升级,通过模型驱动的数据构建机制和渐进式训练优化,在保持0.9B轻量化架构的情况下,模型准确率和复杂场景适应能力进一步提升。由于两代模型模型结构一致,开发者和企业用户无需进行额外适配,即可平滑迁移。

近年来,PaddleOCR持续推进文档理解能力升级,先后推出PaddleOCR-VL、PaddleOCR-VL-1.5等多款模型。其中,PaddleOCR-VL-1.5创新支持异形框定位,在真实文档场景中展现出较强解析能力。此前,PaddleOCR GitHub Star数已突破79.2K,超过谷歌开源OCR项目Tesseract OCR,成为全球最受开发者欢迎的开源OCR项目之一。

目前,PaddleOCR-VL-1.6已上线PaddleOCR官网,支持网页端和API调用。同时,模型代码及权重已同步开源至GitHub和Hugging Face,面向全球开发者开放使用。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈