景德镇预应力钢绞线厂次吃下本书！百度开源新OCR，作家疑似前DeepSeek议论员

发布日期：2026-06-25 19:31点击次数：

国产开源 OCR 又刷新 SOTA！景德镇预应力钢绞线厂

刚刚，百度开源了全新的 OCR 新模子——

Unlimited OCR。

它主语气读完几十页长文档，并在 OmniDocBench 上刷新 SOTA，举座得益过此前的 DeepSeek OCR。

与传统 OCR 处理长文档时"页页读，再把效果拼且归"的想路不同，Unlimited OCR 此次效法了种神似东谈主类抄录员的职责式：

不再死记硬背前边一经抄写过的内容，而是只保留现时职责需要的信息和进程。

基于此，它能够像东谈主样一语气阅读整本书，而不是每读完页就中断次，再从下页重新运行。

关节的是，借助翻新的参考滑动窗口贯注力（Reference Sliding Window Attention，R-SWA）机制，即便文档越来越长，显存占用和贯注力狡计支拨也险些不会增长。

这是怎样作念到的？

for-loop 仅仅权宜之策

步伐路 Unlimited OCR，得先望望传统 OCR 是怎样处理长文档的。

粗浅来说，OCR（光学字符识别，Optical Character Recognition）即是把图片里的内容读出来，再转机成 Markdown 等可剪辑文本。

在以往的处理过程中，张图片会入编码器，被压缩成串视觉 Token；随后解码器再个字个字地把内容写出来。

但问题在于，传统的 OCR 解码器每生成个新 Token，它齐需要回头稽查之前生成过的系数 Token，再决定下个字该写什么。

于是文档越长，需要回看的历史内容就越多，KV Cache 合手续扩展，显存占用和贯注力狡计支拨也随之增长。

终，论是生成长度照旧理速率，齐会受到限度。

这亦然为什么现存 OCR 系统很难次读完几十页文档，频频只可罗致"逐页处理 + 效果拼接"的案：

每读完页就重置高下文，后再由外部步伐把效果重新拼起来。

这种 for-loop 式案天然工程上可行，但实质上仅仅权宜之策，而 Unlimited OCR 想管制的，正是向上扩展模子在长程任务的施展。

参考滑动窗口贯注力

那，问题来了。

如若不罗致逐页重置的 for-loop 案，模子又该如安在保合手一语气阅读情景的同期，避 KV Cache 跟着文档长度限增长？

Unlimited OCR 给出的谜底，不是让模子记着多东西，而是让模子学会像东谈主样"淡忘"。而这，就引出了它中枢的翻新点：参考滑动窗口贯注力。

为了阐明参考滑动窗口贯注力的假想想路，议论举了个相配形象的例子：东谈主类阅读长文档其实并不是全量回溯的。

比如抄写本书时，你不会每写个字齐重新翻阅前边几十页。

你只会保留现时的阅读情景，以及刚刚写下的小段内容，用来证据莫得跳行、莫得漏字，久远的信息则会逐步淡出回顾。

论文将这种机制称为软淡忘（Soft Forgetting）景德镇预应力钢绞线厂。

受此启发，参考滑动窗口贯注力应时而生。

对于每个待生成 Token，模子长久养息系数参考 Token（Reference Tokens），也即是视觉 Token 和指示词；

与此同期，在输出端只保留近 n 个历史 Token（默许 128 个）参与贯注力狡计。

就好像你抄书的时候，原书长久摊开在桌面上，不错随时稽查齐全内容；

而手边只保留近写下的几行字，用来跟踪现时进程。早的内容则天然淡出职责回顾。

这么来，模子既能合手续看到齐全图像，又能依靠局部历史信息判断现时瓦解到了那儿。

此外，这里值得提的，还有 Unlimited OCR 的 KV Cache 管制式。

论文将 KV Cache 假想成个固定长度的部队。每生成个新 Token，旧的部分情景就会自动移出，新情景再补进来。

因此，论毕生成几千照旧几万个 Token，KV Cache 领域长久保合手恒定，显存占用和狡计本钱齐不会络续增长。

这亦然 R-SWA 与其他贯注力机制大的诀别。

比较全贯注力（Full Attention），后者的 KV Cache 会跟着解码连接扩展，而 R-SWA 长久保合手固定大小。

比较传统滑动窗口贯注力（SWA），后者会把视觉 Token 和文本 Token 起放进窗口，跟着窗口连接滑动，早期视觉信息会逐步被挤出；解码越长，对原图的感知就越繁重。

而 R-SWA 则将视觉 Token 单保留住来，让它们长久作为参考信息存在，不参与滑动窗口新。

换句话说，图像长久保合手明晰，发生滑动的惟一输出文本自己。

正如上图所示，传统 OCR 越读越慢，而 Unlimited OCR 基本保合手匀速运行，这正是 R-SWA 的价值场地。

实践考据

在实践部分，议论团队罗致 OmniDocBench v1.5 和 v1.6 评估模子的文档瓦解本事，并稀奇构建了掩饰 2 页至 40 页以上文档的里面测试集，门锻练其长文档一语气瓦解本事。

先来看举座得益。

在 OmniDocBench v1.5 上，Unlimited OCR 得回了93.23的综得分，比较 DeepSeek OCR 晋升6.22。

在新的 v1.6 版块中，得益向上达到 93.92，刷新现时 SOTA。

在长文本瓦解本事面，即便次输入 40 页以上内容，模子依然能够保合手踏实施展。

其 Distinct-35 办法达到 96.90，钢绞线剪辑距离（Edit Distance）长久防守在 0.1069 以下。

换句话说，跟着文档长度连接增长，模子并莫得出现显然的内容浑浊或瓦解质地着落。

除了精度晋升景德镇预应力钢绞线厂，Unlimited OCR 还带来了理率上的。

由于罗致恒定 KV Cache 假想，模子的理支拨不会跟着文档页数合手续增长。在生成 6000 个 Token 时，其理速率（TPS）比较 DeepSeek OCR 晋升约 35。

与此同期，调用延迟（Latency）基本保合手踏实，莫得出现长文档场景下常见的延迟飙升局势。

OCR 除外：种新的长高下文想路

如若把连年的时期线串起来看，会发现个故真义的局势：越来越多头部模子公司运行重兵进入 OCR。

从 DeepSeek 年头发布 OCR2，到智谱开源 GLM-OCR，再到百度此次出 Unlimited OCR，大争夺的早已不是单纯的翰墨识别本事，而是新的数据进口。

互联网数据正在被快速阔绰，而企业确切有价值的数据，其实大宗千里睡在 PDF、同、文告、单子和扫描件里。

对于东谈主类来说，这些是信息，但对于模子来说，它们仅仅像素。

OCR 的道理，即是把这些像素重新变成模子能够清楚和理的 Token。因此，OCR 正在从个传统器具，逐步变成 AI 期间伏击的数据进口之。

不外，如若只把 Unlimited OCR 动作个 OCR 模子，可能就低估了它。

往日两年，行业靠近长高下文问题时，主流的想路直是扩容。

128K、1M、10M，高下文窗口连接变长；各式长高下文化案，实质上也齐在想考如何让模子记着多信息。

而 R-SWA 反着来。

与其让模子记着切，不如让它学会像东谈主样淡忘。

是以说，Unlimited OCR 看起来管制的是 OCR 问题，但它修改的是贯注力机制自己。而贯注力，恰正是今天险些系数大模子共同的基础设施。

因此，这篇论文确切探求的，其实不仅仅 OCR 该怎样作念，而是另个基础的问题：

当任务越来越永劫，模子究竟该如何管制我方的回顾？

论文也给出了明确的道路图。

短期内，团队野心西宾长高下文版块，把瓦解本事扩展到 128K；经久则但愿构建访佛"预填池（Prefill Pool）"的机制，让模子能够像东谈主翻书样，按需调取历史 KV 情景，向上冲破高下文限度。

而故真义的是，他们野心将 R-SWA 扩展到语音识别、机器翻译等任务。

换句话说，OCR 未必仅仅站。

某种程度上，这条"怎样记"的道路，也正值与 DeepSeek OCR2 探索的"怎样看"造成了呼应：

前者关在意觉信息如何被地清楚，后者则运行想考这些信息该如安在长任务中被保留、传递与淡忘。

从视觉清楚到经久回顾，从 OCR 到广义的永劫理。

未必，这才是 Unlimited OCR 确切想讲的故事。

One more thing

值得提的是，技巧文告发布后，作家名单里的个名字也激发了不少探求。

在三位中枢孝敬者中，有位作家并莫得使用全名，而是以" YY "的缩写签字，并被标注为技巧总监。

这个 YY 是谁？

很快，网友们运行顺着论文里的各式细节寻找谜底。

先是这份技巧文告自己。

从行文作风到技巧叙事，读过 DeepSeek OCR 技巧文告的东谈主，约略率齐会有种练习感。

论是强调"像东谈主样阅读文档"的理念，照旧把技巧问题包装成个对于回顾与淡忘的故事，齐带着浓厚的探索彩。

而在技巧终了上，Unlimited OCR 通常出现了不少练习的身影。

无人不晓，DeepEncoder 早正是在 DeepSeek OCR 中被建议。此次 Unlimited OCR 则胜仗沿用了这压缩率视觉编码器，并将翻新放在了解码阶段的经久回顾机制上。

故真义的是，在技俩 GitHub 页面的致谢部分，团队还门提到了 DeepSeek OCR 和 PaddleOCR 等干系职责。

各样陈迹重迭之下，不少网友运行揣度：这位 YY，很可能即是前 DeepSeek OCR 团队议论员魏浩然。

作为 OCR 域的资议论者，魏浩然此前曾在阶跃星辰职责，并主开辟了被称为"二代 OCR "代表作之的 GOT-OCR2.0。

该技俩亦然端到端 OCR 向早跑通的开源标杆之。而后，他又参与了 DeepSeek OCR 系列的研发，在 DeepSeek OCR 和 OCR2 的中枢作家名单中，经久出现的正是魏浩然、孙耀峰和李宇琨三东谈主。

而此次，在 Unlimited OCR 的技巧文告中，东谈主们似乎又看到了同条议论道路络续上前蔓延的影子。

天然，收尾现在，YY 的确切身份仍未得到官证据。

但比身份自己死真义的，未必是这篇论文所展现出的议论想路：

从视觉编码，到经久回顾；从"怎样看"，到"怎样记"。

而 OCR，也许仅仅这条道路的站。

参考勾通：

[ 1 ] https://github.com/baidu/Unlimited-OCR

[ 2 ] https://huggingface.co/baidu/Unlimited-OCR

键三连「点赞」「转发」「小心心」

接待在驳斥区留住你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展逐日见天津市瑞通预应力钢绞线有限公司相关词条:罐体保温施工异型材设备锚索玻璃棉保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定景德镇预应力钢绞线厂，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：苏州锚索晚报丨科技股“黑星期二”！好意思伊议论得到要紧推崇，市集为何响应冷淡？德银大黄金办法价；全球农业食粮风险升温；特斯拉机器东谈主量产在即？微信迎来史上大新；SpaceX市值或跌破2万亿好意思元；英伟达须臾不香了？下一篇：内江预应力缓粘结钢绞线《巧妙之主》PV上线，展示BOSS对战，灰雾测试认真定档

- 联系瑞通

热点资讯

景德镇预应力钢绞线厂 次吃下本书！百度开源新OCR，作家疑似前DeepSeek议论员

景德镇预应力钢绞线厂次吃下本书！百度开源新OCR，作家疑似前DeepSeek议论员