发布日期:2026-06-25 19:31点击次数:

国产开源 OCR 又刷新 SOTA!景德镇预应力钢绞线厂
刚刚,百度开源了全新的 OCR 新模子——
Unlimited OCR。
它主语气读完几十页长文档,并在 OmniDocBench 上刷新 SOTA,举座得益过此前的 DeepSeek OCR。
与传统 OCR 处理长文档时"页页读,再把效果拼且归"的想路不同,Unlimited OCR 此次效法了种神似东谈主类抄录员的职责式:
不再死记硬背前边一经抄写过的内容,而是只保留现时职责需要的信息和进程。
基于此,它能够像东谈主样一语气阅读整本书,而不是每读完页就中断次,再从下页重新运行。
关节的是,借助翻新的参考滑动窗口贯注力(Reference Sliding Window Attention,R-SWA)机制,即便文档越来越长,显存占用和贯注力狡计支拨也险些不会增长。
这是怎样作念到的?
for-loop 仅仅权宜之策
步伐路 Unlimited OCR,得先望望传统 OCR 是怎样处理长文档的。
粗浅来说,OCR(光学字符识别,Optical Character Recognition)即是把图片里的内容读出来,再转机成 Markdown 等可剪辑文本。
在以往的处理过程中,张图片会入编码器,被压缩成串视觉 Token;随后解码器再个字个字地把内容写出来。
但问题在于,传统的 OCR 解码器每生成个新 Token,它齐需要回头稽查之前生成过的系数 Token,再决定下个字该写什么。
于是文档越长,需要回看的历史内容就越多,KV Cache 合手续扩展,显存占用和贯注力狡计支拨也随之增长。
终,论是生成长度照旧理速率,齐会受到限度。
这亦然为什么现存 OCR 系统很难次读完几十页文档,频频只可罗致"逐页处理 + 效果拼接"的案:
每读完页就重置高下文,后再由外部步伐把效果重新拼起来。
这种 for-loop 式案天然工程上可行,但实质上仅仅权宜之策,而 Unlimited OCR 想管制的,正是向上扩展模子在长程任务的施展。
参考滑动窗口贯注力
那,问题来了。
如若不罗致逐页重置的 for-loop 案,模子又该如安在保合手一语气阅读情景的同期,避 KV Cache 跟着文档长度限增长?
Unlimited OCR 给出的谜底,不是让模子记着多东西,而是让模子学会像东谈主样"淡忘"。而这,就引出了它中枢的翻新点:参考滑动窗口贯注力。
为了阐明参考滑动窗口贯注力的假想想路,议论举了个相配形象的例子:东谈主类阅读长文档其实并不是全量回溯的。
比如抄写本书时,你不会每写个字齐重新翻阅前边几十页。
你只会保留现时的阅读情景,以及刚刚写下的小段内容,用来证据莫得跳行、莫得漏字,久远的信息则会逐步淡出回顾。
论文将这种机制称为软淡忘(Soft Forgetting)景德镇预应力钢绞线厂。
受此启发,参考滑动窗口贯注力应时而生。
对于每个待生成 Token,模子长久养息系数参考 Token(Reference Tokens),也即是视觉 Token 和指示词;
与此同期,在输出端只保留近 n 个历史 Token(默许 128 个)参与贯注力狡计。
就好像你抄书的时候,原书长久摊开在桌面上,不错随时稽查齐全内容;
而手边只保留近写下的几行字,用来跟踪现时进程。早的内容则天然淡出职责回顾。
这么来,模子既能合手续看到齐全图像,又能依靠局部历史信息判断现时瓦解到了那儿。
此外,这里值得提的,还有 Unlimited OCR 的 KV Cache 管制式。
论文将 KV Cache 假想成个固定长度的部队。每生成个新 Token,旧的部分情景就会自动移出,新情景再补进来。
因此,论毕生成几千照旧几万个 Token,KV Cache 领域长久保合手恒定,显存占用和狡计本钱齐不会络续增长。
这亦然 R-SWA 与其他贯注力机制大的诀别。
比较全贯注力(Full Attention),后者的 KV Cache 会跟着解码连接扩展,而 R-SWA 长久保合手固定大小。
比较传统滑动窗口贯注力(SWA),后者会把视觉 Token 和文本 Token 起放进窗口,跟着窗口连接滑动,早期视觉信息会逐步被挤出;解码越长,对原图的感知就越繁重。
而 R-SWA 则将视觉 Token 单保留住来,让它们长久作为参考信息存在,不参与滑动窗口新。
换句话说,图像长久保合手明晰,发生滑动的惟一输出文本自己。
正如上图所示,传统 OCR 越读越慢,而 Unlimited OCR 基本保合手匀速运行,这正是 R-SWA 的价值场地。
实践考据
在实践部分,议论团队罗致 OmniDocBench v1.5 和 v1.6 评估模子的文档瓦解本事,并稀奇构建了掩饰 2 页至 40 页以上文档的里面测试集,门锻练其长文档一语气瓦解本事。
先来看举座得益。
在 OmniDocBench v1.5 上,Unlimited OCR 得回了93.23的综得分,比较 DeepSeek OCR 晋升6.22。
在新的 v1.6 版块中,得益向上达到 93.92,刷新现时 SOTA。
在长文本瓦解本事面,即便次输入 40 页以上内容,模子依然能够保合手踏实施展。
其 Distinct-35 办法达到 96.90,钢绞线剪辑距离(Edit Distance)长久防守在 0.1069 以下。
换句话说,跟着文档长度连接增长,模子并莫得出现显然的内容浑浊或瓦解质地着落。
除了精度晋升景德镇预应力钢绞线厂,Unlimited OCR 还带来了理率上的。
由于罗致恒定 KV Cache 假想,模子的理支拨不会跟着文档页数合手续增长。在生成 6000 个 Token 时,其理速率(TPS)比较 DeepSeek OCR 晋升约 35。
与此同期,调用延迟(Latency)基本保合手踏实,莫得出现长文档场景下常见的延迟飙升局势。
OCR 除外:种新的长高下文想路
如若把连年的时期线串起来看,会发现个故真义的局势:越来越多头部模子公司运行重兵进入 OCR。
从 DeepSeek 年头发布 OCR2,到智谱开源 GLM-OCR,再到百度此次出 Unlimited OCR,大争夺的早已不是单纯的翰墨识别本事,而是新的数据进口。
互联网数据正在被快速阔绰,而企业确切有价值的数据,其实大宗千里睡在 PDF、同、文告、单子和扫描件里。
对于东谈主类来说,这些是信息,但对于模子来说,它们仅仅像素。
OCR 的道理,即是把这些像素重新变成模子能够清楚和理的 Token。因此,OCR 正在从个传统器具,逐步变成 AI 期间伏击的数据进口之。
不外,如若只把 Unlimited OCR 动作个 OCR 模子,可能就低估了它。
往日两年,行业靠近长高下文问题时,主流的想路直是扩容。
128K、1M、10M,高下文窗口连接变长;各式长高下文化案,实质上也齐在想考如何让模子记着多信息。
而 R-SWA 反着来。
与其让模子记着切,不如让它学会像东谈主样淡忘。
是以说,Unlimited OCR 看起来管制的是 OCR 问题,但它修改的是贯注力机制自己。而贯注力,恰正是今天险些系数大模子共同的基础设施。
因此,这篇论文确切探求的,其实不仅仅 OCR 该怎样作念,而是另个基础的问题:
当任务越来越永劫,模子究竟该如何管制我方的回顾?
论文也给出了明确的道路图。
短期内,团队野心西宾长高下文版块,把瓦解本事扩展到 128K;经久则但愿构建访佛"预填池(Prefill Pool)"的机制,让模子能够像东谈主翻书样,按需调取历史 KV 情景,向上冲破高下文限度。
而故真义的是,他们野心将 R-SWA 扩展到语音识别、机器翻译等任务。
换句话说,OCR 未必仅仅站。
某种程度上,这条"怎样记"的道路,也正值与 DeepSeek OCR2 探索的"怎样看"造成了呼应:
前者关在意觉信息如何被地清楚,后者则运行想考这些信息该如安在长任务中被保留、传递与淡忘。
从视觉清楚到经久回顾,从 OCR 到广义的永劫理。
未必,这才是 Unlimited OCR 确切想讲的故事。
One more thing
值得提的是,技巧文告发布后,作家名单里的个名字也激发了不少探求。
在三位中枢孝敬者中,有位作家并莫得使用全名,而是以" YY "的缩写签字,并被标注为技巧总监。
这个 YY 是谁?
很快,网友们运行顺着论文里的各式细节寻找谜底。
先是这份技巧文告自己。
从行文作风到技巧叙事,读过 DeepSeek OCR 技巧文告的东谈主,约略率齐会有种练习感。
论是强调"像东谈主样阅读文档"的理念,照旧把技巧问题包装成个对于回顾与淡忘的故事,齐带着浓厚的探索彩。
而在技巧终了上,Unlimited OCR 通常出现了不少练习的身影。
无人不晓,DeepEncoder 早正是在 DeepSeek OCR 中被建议。此次 Unlimited OCR 则胜仗沿用了这压缩率视觉编码器,并将翻新放在了解码阶段的经久回顾机制上。
故真义的是,在技俩 GitHub 页面的致谢部分,团队还门提到了 DeepSeek OCR 和 PaddleOCR 等干系职责。
各样陈迹重迭之下,不少网友运行揣度:这位 YY,很可能即是前 DeepSeek OCR 团队议论员魏浩然。
作为 OCR 域的资议论者,魏浩然此前曾在阶跃星辰职责,并主开辟了被称为"二代 OCR "代表作之的 GOT-OCR2.0。
该技俩亦然端到端 OCR 向早跑通的开源标杆之。而后,他又参与了 DeepSeek OCR 系列的研发,在 DeepSeek OCR 和 OCR2 的中枢作家名单中,经久出现的正是魏浩然、孙耀峰和李宇琨三东谈主。
而此次,在 Unlimited OCR 的技巧文告中,东谈主们似乎又看到了同条议论道路络续上前蔓延的影子。
天然,收尾现在,YY 的确切身份仍未得到官证据。
但比身份自己死真义的,未必是这篇论文所展现出的议论想路:
从视觉编码,到经久回顾;从"怎样看",到"怎样记"。
而 OCR,也许仅仅这条道路的站。
参考勾通:
[ 1 ] https://github.com/baidu/Unlimited-OCR
[ 2 ] https://huggingface.co/baidu/Unlimited-OCR
键三连「点赞」「转发」「小心心」
接待在驳斥区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见天津市瑞通预应力钢绞线有限公司相关词条:罐体保温施工 异型材设备 锚索 玻璃棉 保温护角专用胶
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定景德镇预应力钢绞线厂,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
15222026333