重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个

60次阅读
没有评论

共计 3872 个字符,预计需要花费 10 分钟才能阅读完成。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

  新智元报道  

编辑:KingHZ
  • 【新智元导读】

DeepSeek 再发新模型!

Github 上,DeepSeek 新建了 DeepSeek-OCR 仓库,目的是探索视觉 - 文本压缩的边界。

常言道:一图胜万言。对 LLM 也是如此!

在理论上,DeepSeek-OCR 模型初步验证了「上下文光学压缩」的可行性——

从少量视觉 token 中,模型能够有效解码出超过其数量 10 倍的文本 token。

也就是说,包含文档文本的单张图像,能以远少于等效文本的 token 量来表征丰富信息。

这表明通过视觉 token 进行光学压缩可以实现更高的压缩比。

作为连接视觉与语言的中间模态,OCR 任务是视觉 - 文本压缩范式理想的试验场——

它在视觉与文本表征之间建立了天然的压缩 - 解压缩映射关系,同时提供可量化的评估指标。

在 OCR 任务上,DeepSeek-OCR 有较高实用价值:在 OmniDocBench 基准测试中,仅用 100 个视觉 token 即超越 GOT-OCR2.0(每页 256token);以少于 800 个视觉 token 的表现,优于 MinerU2.0(平均每页 6000+token)。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

图 (a) 展示了在 Fox 基准测试中的压缩比(真实文本 token 数 / 模型使用的视觉 token 数);图 (b) 展示了在 OmniDocBench 上的性能对比

在实际应用中,单张 A100-40G 显卡 可支持每日 20 万页 以上的大语言模型 / 视觉语言模型训练数据生成。

新模型还能解析图表、化学方程式、简单几何图形和自然图像:

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个
重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个
重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个
重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

可以上下滚动的图片

在不同历史上下文阶段中,DeepSeek-OCR 的视觉 - 文本压缩可减少 7–20 倍 的 token,为解决大语言模型的长上下文问题提供了可行方向。

这一范式为重新思考视觉与语言模态的协同融合,进而提升大规模文本处理与智能体系统的计算效率,开辟了新的可能。

这一发现将有力推动视觉语言模型与大语言模型的未来发展。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

Github:https://github.com/deepseek-ai/DeepSeek-OCR

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个
开源神器 DeepSeek-OCR
探索上下文光学压缩

当前开源 VLM(视觉语言模型)采用了三种主要的视觉编码器架构,但各有各的缺陷。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

随着 VLM 的进步,许多端到端的 OCR 模型应运而生,根本性地改变了传统的管道架构,简化了 OCR 系统。

但有个核心问题:

对于一个包含 1000 个字的文档,至少需要多少个视觉 token 来解码?

这个问题对于研究「一画胜千言」的原则具有重要意义。

DeepSeek-OCR 意在回答这一问题。它采用统一的端到端 VLM 架构,由编码器和解码器组成。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

编码器(即 DeepEncoder)负责提取图像特征,并对视觉表示进行 token 化与压缩处理。解码器则根据图像 token 和提示信息生成所需结果。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

编码器:DeepEncoder 创新架构

为了验证「上下文光学压缩」(context optical compression)的可行性,视觉编码器需要满足以下特性:

  1. 能处理高分辨率图像;

  2. 在高分辨率下保持较低的激活开销;

  3. 生成较少的视觉 token;

  4. 支持多分辨率输入;

  5. 参数规模适中。

研究者提出了全新的视觉编码器 DeepEncoder。DeepEncoder 参数量约为 3.8 亿,主要由串联连接的 SAM-base 和 CLIP-large 构成。

视觉感知特征提取器,主要使用窗口注意力(window attention),主架构为 8000 万参数的 SAM-base(patch-size 16);

视觉知识特征提取器,采用密集全局注意力(dense global attention),主架构为 3 亿参数 CLIP-large。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

在这两个组件之间是一个 2 层卷积模块,对视觉 token 进行16×下采样

DeepEncoder会压缩图像打下,比如将输入大小为 1024×1024 的 图像划分为 1024/16×1024/16=4096 个 patch token。

编码器的前半部分由窗口注意力主导且只有 80M 参 数,因此激活内存消耗是可接受的。

在进入全局注意力模块之前,4096 个 token 通过压缩模块,最终 token 数量会减为4096/16=256,从而使得整体的激活内存消耗可控。

假设有一张包含 1000 个光学字符 的图像,要想测试解码需要多少个视觉 token,就要求模型能够支持可变数量的视觉 token。

也就是说,DeepEncoder需要支持多种分辨率。

动态插值位置编码可满足上述需求。

研究者设计了多个分辨率模式,以便在模型训练过程中同时支持多种分辨率,从而实现单个 DeepSeek-OCR 模型支持多个分辨率的能力。

如下图 4 所示,DeepEncoder主要支持两种输入模式:原生分辨率 动态分辨率。每种模式下又包含多个子模式。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

原生分辨率支持四种子模式:TinySmallBaseLarge。

动态分辨率由两种原生分辨率组合而成。

支持动态分辨率主要是为了应对超高分辨率输入(例如报纸图像)的应用需求。瓦片化(tiling)是一种二级窗口注意力方法,可以进一步有效减少激活内存消耗。

Gundam 模式下,DeepEncoder输出的视觉 token 数量为n×100+256,其中 n 为瓦片的数量

Gundam 模式 与四种原生分辨率模式一起训练,以实现一个模型支持多种分辨率的目标。

值得注意的是,Gundam-master模式(1024×1024 的局部视图 +1280×1280 的全局视图)是通过在已训练的 DeepSeek-OCR 模型上继续训练得到的。

下表 1 总结了各模式下的分辨率和 token 数。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

解码器:DeepSeek-3B-MoE

解码器使用DeepSeekMoE,具体为DeepSeek-3B-MoE

在推理过程中,该模型激活了 6 个 路由专家和 2 个 共享专家,总计激活了约 5.7 亿 参数。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

3B 的 DeepSeekMoE非常适合于以领域为中心的视觉语言模型(VLM)研究——

它能够获得 3B 模型的表达能力,同时享有类似 500M 小型模型 的推理效率。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个
具体结果

在 Fox基准集,研究者验证 DeepSeek-OCR在文本密集型文档上的压缩与解压能力,初步探索「上下文光学压缩」的可行性与边界。

如下表 2 所示,在 10×压缩比 内,模型的解码精度可达约97%,这一结果极具潜力。

而且输出格式仍与 Fox 基准的格式并不完全一致,因此实际性能可能略高于测试结果。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

未来,或可通过 文本到图像(text-to-image) 方法实现接近10×无损上下文压缩

当压缩比超过 10× 时,性能开始下降,原因可能有二:

  1. 长文档布局更复杂;

  2. 长文本在 512×512 或 640×640 分辨率下出现模糊。

第一个问题可以通过将文本渲染到单页布局来缓解,而第二个问题则可能成为一种 「遗忘机制」(forgetting mechanism)的自然表现。

当压缩比接近 20× 时,模型精度仍可维持在60% 左右。

这些结果表明,光学上下文压缩(optical contexts compression) 是一种极具前景且值得深入研究的方向。

更重要的是,这种方法不会带来额外的计算开销,因为它能够直接利用VLM 基础设施——

多模态系统本身就内置视觉编码器,从而具备天然的支持条件。

DeepSeek-OCR 还很实用 ,能够为LLM/VLM 预训练 构建数据。

在实际部署中,DeepSeek-OCR 使用 20 个计算节点(每节点配备 8 张 A100-40G GPU)每日可为 LLM/VLM 生成 3300 万页训练数据。

为了量化 OCR 性能,研究者在 OmniDocBench 上测试了DeepSeek-OCR,结果如表 3 所示。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个
  • 在仅需 100 个视觉 token640×640 分辨率)的情况下,DeepSeek-OCR 超越了使用 256 个 token 的 GOT-OCR2.0

  • 400 个 token(其中285 个有效 token1280×1280 分辨率)的情况下,模型在该基准测试中达到了与现有最先进模型相当的性能;

  • 使用不到 800 个 tokenGundam 模式),DeepSeek-OCR 超过了需要近 7000 个视觉 tokenMinerU2.0

这些结果表明,DeepSeek-OCR 在实际应用中非常强大,且由于更高的 token 压缩,模型具有更高的研究上限。

如下表 4 所示,某些类型的文档,只需要非常少的 token 即可获得令人满意的性能。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

对于 书籍 报告 类型文档,DeepSeek-OCR仅需 100 个视觉 token 即可达到良好的性能。这可能是因为这类文档中的大多数文本 token 数量在 1,000 以内,意味着视觉 token 压缩比不超过10×

除了解析图表、化学方程式、简单几何图形和自然图像外,对于 PDF 文档DeepSeek-OCR 可以处理近100 种语言

如下图 11 所示,DeepSeek-OCR 不仅在常见语言处理上表现出色,而且在多语言处理能力上也具有广泛的适用性,进一步增强了其在全球范围内的应用潜力。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

DeepSeek-OCR 具有 某种程度的通用图像理解能力。

相关的可视化结果如图 12 所示,展示了该模型在 图像描述 物体检测 语境定位(grounding) 等任务中的表现。

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个
详细结果和内容,见下列参考资料。
参考资料:
https://github.com/deepseek-ai/DeepSeek-OCR
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
 

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

重磅!DeepSeek 再开源:视觉即压缩,100 个 token 干翻 7000 个

<

正文完
 0
评论(没有评论)