包装检测设备 包装机械 折射仪 荧光笔 眼镜及配件 验钞机

DeepSeek开源OCR-2模型,梁文锋带队探索新架构_视觉_Token_顺序

发布时间:2026-01-27 18:50:02 点击数:

出品|搜狐科技

作者|常博硕

编辑|杨锦

临近春节,DeepSeek的更新也越来越频繁了。

刚刚,DeepSeek团队发布了论文《DeepSeek-OCR 2:Visual Causal Flow》,并正式开源了DeepSeek-OCR 2模型。论文三位作者分别是魏浩然、孙耀峰和李宇琨。

要读懂这篇文章,首先要知道的一个问题就是:啥是OCR?

其实,OCR是光学字符识别(Optical Character Recognition)的缩写,基本思路就是让计算机能看懂图像中的文字。比如我们把手机拍摄的***、合同扫描件、书籍照片等转换成计算机可以编辑和搜索的文字内容,这就是OCR。

传统OCR模型通常遵循扫描式的思路,首先检测图像中的文字区域,再一个字一个字或一行一行地识别,这种固定扫描顺序就容易忽略文档的整体结构。但人不是这样的,我们在阅读复杂文档时,通常会先浏览标题然后看看段落表格,会有优先级排序,而不是机械地从左上到右下扫过页面。

展开全文

现在的问题是,当文档结构复杂到一定程度时,AI就不知道先看哪儿了。像学术论文一般是多栏排版,文章中还有公式与正文交错出现,技术报告中的表格与注释,报纸版面等等这些都对模型提出了超出传统OCR的要求。

所以,DeepSeek新开源的DeepSeek-OCR 2模型其实就是为了让机器阅读更像人而设计的。

提出视觉因果流

DeepSeek-OCR 2作为新一代视觉语言OCR模型,核心创新在于提出了视觉因果流(Visual Causal Flow)的编码器架构。

DeepSeek-OCR 2的整体架构延续了DeepSeek-OCR的“编码器—解码器”设计,其中解码器仍然***用约3B参数的MoE语言模型,编码器部分则升级为DeepEncoder V2。

从论文中看,DeepEncoder V2编码器通过引入语义驱动的顺序重排,使AI能够根据图片内容的逻辑顺序来处理信息,而不再只是按照固定的栅格顺序。

上图示意了DeepSeek-OCR 2的核心架构。左边为传统DeepEncoder,使用CLIP视觉模型,右图为DeepEncoder V2。新的架构使用了语言模型作为视觉编码器(LM as Vision Encoder),并在视觉Token序列后附加了因果查询(learnable query),用于新的阅读顺序排列。

一个关键的点在于,DeepSeek-OCR 2使用了语言模型架构作为视觉编码器。

在DeepEncoder V2中,DeepSeek用一个轻量级语言模型(Qwen2-500M)取代了传统的CLIP ViT。这样做就可以让模型在视觉编码阶段本身就具备序列建模和因果推理能力,使得其与后续的语言解码阶段在建模范式上保持一致。

从架构上看,DeepSeek-OCR 2并未增加视觉token的数量,也没有引入额外的多模态复杂结构,而是通过注意力掩码的重新设计,让“顺序”成为可学习的对象。这使得模型在处理表格、公式、多栏排版等场景时,能够更自然地恢复文档的逻辑结构。

注意力掩码的设计其实十分有意思。在编码器中,视觉token与一组新增的因果流查询token被拼接成一个统一序列,但两者在注意力机制上其实是非对称的。

视觉token之间***用双向注意力,保持与ViT类似的全局建模能力。而查询token之间***用严格的因果注意力,每个query(查询)只能关注其之前的query,同时,每个查询token都可以访问所有视觉token。

在这种注意力掩码的作用下,查询token被迫以序列化方式逐步聚合视觉信息,其内部顺序不再由空间坐标决定,而是在训练过程中,在语义建模目标的驱动下逐步形成更接近人类阅读逻辑的视觉表示序列。

这种设计就和人类阅读文档的方式高度相似,首先获取全局结构,随后在语义理解的引导下,决定接下来该看哪里。

部分表现优于Gemini

在OmniDocBench v1.5基准测试中,DeepSeek-OCR 2在整体准确率上达到91.09%,在使用最少视觉token的情况下,较上一代DeepSeek-OCR提升了3.73%。

在衡量阅读顺序(R-order)的指标编辑距离(Edit Distance)上,DeepSeek-OCR 2从前代的0.085降低到了0.057,证明了新模型不仅识别得更准,结构理解能力也发生了实质变化。

在和Gemini-3 Pro等闭源强模型的对比中,在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)也优于Gemini-3 Pro(0.115)。

根据DeepSeek披露的数据,在真实用户日志与PDF批量处理场景中,DeepSeek-OCR 2的重复输出率也有了明显下降。

相比前代模型,DeepSeek-OCR 2在在线用户日志图像中,重复率从6.25%降至4.17%。在PDF数据生产场景中,重复率从3.69%降至2.88%。重复输出往往源于模型对文档结构理解不充分,导致内容会被多次误读,从结果来看,视觉因果流的引入也有效缓解了这一问题。

如果放在更宏观一点的角度,其实DeepSeek-OCR 2还提供了一种新的框架思路,那就是二维视觉理解,是否可以拆解为两层一维因果推理。在这一框架下,编码器负责怎么读内容,解码器负责如何回答,两者共同完成对复杂视觉内容的理解。

这也是DeepSeek在论文最后提出的一个长期方向——原生多模态(Native Multimodality)。如果同一套因果查询机制可以用于视觉、文本甚至音频,那么OCR可能只是这一架构的起点,而不是终点。

正如论文最后所说,虽然光学文本识别,特别是文档解析,是大语言模型时代最实用的视觉任务之一,但它仅占视觉理解领域的一小部分。

展望未来,DeepSeek将向着更通用的多模态智能继续“深度求索”。返回搜狐,查看更多

DeepSeek开源OCR-2模型,梁文锋带队探索新架构_视觉_Token_顺序
上一篇 : 2025 年还能等得到 LCD 屏的旗舰机吗? {dede:type} 返回目录 {/dede:type} 下一篇 : 程序员明明是技术积累岗位,为什么年龄越大反而可替代性变高了?
网站首页 包装检测设备 包装机械 折射仪 荧光笔 眼镜及配件 验钞机
服务热线:
地址:
座机:
手机:
传真:
官方微信
官方微信

全国服务热线:
版权@|备案:粤IP*******|网站地图 网站备案号:

友情链接: 乾安网站建设_网站建设公司_网站建设设计制作_seo优化墨脱网站建设_网站建设公司_网站建设设计制作_seo优化泊头市网站建设_网站建设公司_网站建设设计制作_seo优化商洛市网站建设_网站建设公司_网站建设设计制作_seo优化伊春市网站建设_网站建设公司_网站建设设计制作_seo优化泊头市网站建设_网站建设公司_网站建设设计制作_seo优化千阳网站建设_网站建设公司_网站建设设计制作_seo优化墨脱网站建设_网站建设公司_网站建设设计制作_seo优化泊头市网站建设_网站建设公司_网站建设设计制作_seo优化泊头市网站建设_网站建设公司_网站建设设计制作_seo优化墨脱网站建设_网站建设公司_网站建设设计制作_seo优化墨脱网站建设_网站建设公司_网站建设设计制作_seo优化镇平网站建设_网站建设公司_网站建设设计制作_seo优化乌恰网站建设_网站建设公司_网站建设设计制作_seo优化文成网站建设_网站建设公司_网站建设设计制作_seo优化法库网站建设_网站建设公司_网站建设设计制作_seo优化湖州市网站建设_网站建设公司_网站建设设计制作_seo优化连平网站建设_网站建设公司_网站建设设计制作_seo优化侯马市网站建设_网站建设公司_网站建设设计制作_seo优化云霄网站建设_网站建设公司_网站建设设计制作_seo优化合山市网站建设_网站建设公司_网站建设设计制作_seo优化浙江省网站建设_网站建设公司_网站建设设计制作_seo优化西和网站建设_网站建设公司_网站建设设计制作_seo优化保德网站建设_网站建设公司_网站建设设计制作_seo优化米易网站建设_网站建设公司_网站建设设计制作_seo优化定南网站建设_网站建设公司_网站建设设计制作_seo优化江孜网站建设_网站建设公司_网站建设设计制作_seo优化澄江网站建设_网站建设公司_网站建设设计制作_seo优化莱芜市网站建设_网站建设公司_网站建设设计制作_seo优化南召网站建设_网站建设公司_网站建设设计制作_seo优化陆丰市网站建设_网站建设公司_网站建设设计制作_seo优化蓝山网站建设_网站建设公司_网站建设设计制作_seo优化桃源网站建设_网站建设公司_网站建设设计制作_seo优化开江网站建设_网站建设公司_网站建设设计制作_seo优化长顺网站建设_网站建设公司_网站建设设计制作_seo优化泰安市网站建设_网站建设公司_网站建设设计制作_seo优化孙吴网站建设_网站建设公司_网站建设设计制作_seo优化彰化网站建设_网站建设公司_网站建设设计制作_seo优化莒南网站建设_网站建设公司_网站建设设计制作_seo优化云南网站建设_网站建设公司_网站建设设计制作_seo优化竹山网站建设_网站建设公司_网站建设设计制作_seo优化荆门市网站建设_网站建设公司_网站建设设计制作_seo优化巴中市网站建设_网站建设公司_网站建设设计制作_seo优化灵宝市网站建设_网站建设公司_网站建设设计制作_seo优化偏关网站建设_网站建设公司_网站建设设计制作_seo优化开封网站建设_网站建设公司_网站建设设计制作_seo优化革吉网站建设_网站建设公司_网站建设设计制作_seo优化内乡网站建设_网站建设公司_网站建设设计制作_seo优化广宗网站建设_网站建设公司_网站建设设计制作_seo优化昭觉网站建设_网站建设公司_网站建设设计制作_seo优化通榆网站建设_网站建设公司_网站建设设计制作_seo优化嘉义网站建设_网站建设公司_网站建设设计制作_seo优化礼泉网站建设_网站建设公司_网站建设设计制作_seo优化普陀网站建设_网站建设公司_网站建设设计制作_seo优化杨浦网站建设_网站建设公司_网站建设设计制作_seo优化吉水网站建设_网站建设公司_网站建设设计制作_seo优化元氏网站建设_网站建设公司_网站建设设计制作_seo优化望江网站建设_网站建设公司_网站建设设计制作_seo优化容城网站建设_网站建设公司_网站建设设计制作_seo优化邹平网站建设_网站建设公司_网站建设设计制作_seo优化博湖网站建设_网站建设公司_网站建设设计制作_seo优化乐昌市网站建设_网站建设公司_网站建设设计制作_seo优化乐至网站建设_网站建设公司_网站建设设计制作_seo优化宜兴市网站建设_网站建设公司_网站建设设计制作_seo优化新野网站建设_网站建设公司_网站建设设计制作_seo优化萨迦网站建设_网站建设公司_网站建设设计制作_seo优化南投市网站建设_网站建设公司_网站建设设计制作_seo优化太白网站建设_网站建设公司_网站建设设计制作_seo优化思茅市网站建设_网站建设公司_网站建设设计制作_seo优化锦州市网站建设_网站建设公司_网站建设设计制作_seo优化巫溪网站建设_网站建设公司_网站建设设计制作_seo优化故城网站建设_网站建设公司_网站建设设计制作_seo优化饶河网站建设_网站建设公司_网站建设设计制作_seo优化武鸣网站建设_网站建设公司_网站建设设计制作_seo优化乌什网站建设_网站建设公司_网站建设设计制作_seo优化青田网站建设_网站建设公司_网站建设设计制作_seo优化长武网站建设_网站建设公司_网站建设设计制作_seo优化荆州市网站建设_网站建设公司_网站建设设计制作_seo优化锦屏网站建设_网站建设公司_网站建设设计制作_seo优化昌吉市网站建设_网站建设公司_网站建设设计制作_seo优化衡阳市网站建设_网站建设公司_网站建设设计制作_seo优化凌云网站建设_网站建设公司_网站建设设计制作_seo优化新化网站建设_网站建设公司_网站建设设计制作_seo优化祁东网站建设_网站建设公司_网站建设设计制作_seo优化个旧市网站建设_网站建设公司_网站建设设计制作_seo优化达州市网站建设_网站建设公司_网站建设设计制作_seo优化泸水网站建设_网站建设公司_网站建设设计制作_seo优化丹寨网站建设_网站建设公司_网站建设设计制作_seo优化高阳网站建设_网站建设公司_网站建设设计制作_seo优化莆田市网站建设_网站建设公司_网站建设设计制作_seo优化梁山网站建设_网站建设公司_网站建设设计制作_seo优化城口网站建设_网站建设公司_网站建设设计制作_seo优化雷波网站建设_网站建设公司_网站建设设计制作_seo优化开封市网站建设_网站建设公司_网站建设设计制作_seo优化合江网站建设_网站建设公司_网站建设设计制作_seo优化海晏网站建设_网站建设公司_网站建设设计制作_seo优化德庆网站建设_网站建设公司_网站建设设计制作_seo优化寿光市网站建设_网站建设公司_网站建设设计制作_seo优化和田市网站建设_网站建设公司_网站建设设计制作_seo优化建宁网站建设_网站建设公司_网站建设设计制作_seo优化榆社网站建设_网站建设公司_网站建设设计制作_seo优化桐梓网站建设_网站建设公司_网站建设设计制作_seo优化浙江省网站建设_网站建设公司_网站建设设计制作_seo优化扬州市网站建设_网站建设公司_网站建设设计制作_seo优化辉市网站建设_网站建设公司_网站建设设计制作_seo优化阜阳市网站建设_网站建设公司_网站建设设计制作_seo优化泸定网站建设_网站建设公司_网站建设设计制作_seo优化合水网站建设_网站建设公司_网站建设设计制作_seo优化高唐网站建设_网站建设公司_网站建设设计制作_seo优化邵东网站建设_网站建设公司_网站建设设计制作_seo优化绍兴网站建设_网站建设公司_网站建设设计制作_seo优化宜兰网站建设_网站建设公司_网站建设设计制作_seo优化