DeepSeek OCR

上下文光学压缩语言模型

训练模型

6 个月前

1565

577

直达应用

DeepSeek-OCR是DeepSeek-AI团队于2025年10月20日开源的一项突破性OCR模型，它通过“上下文光学压缩”技术，为OCR任务及大语言模型长上下文处理提供了全新解决方案。

技术原理：DeepSeek-OCR提出“上下文光学压缩”理念，将文本渲染为图像，通过视觉模型压缩为少量token，再由语言模型解码还原，形成“压缩-解压”的完整链路。该模型认为一张包含文档文本的图像所需的token数量远少于等效数字文本，通过视觉token进行光学压缩可以实现更高的压缩比，从而解决LLM处理长文本时计算复杂度高的问题。
核心架构
- DeepEncoder编码器：参数量约3.8亿，融合了SAM与CLIP的优势架构。前半部分采用8000万参数的SAM-base，通过窗口注意力机制处理局部视觉细节；后半部分采用3亿参数的CLIP-large，以密集全局注意力捕获整体知识信息。在双模块之间加入2层卷积模块，将SAM输出的4096个patch token压缩至256个，降低全局注意力计算的内存开销。此外，还设计了原生分辨率与动态分辨率两类输入模式，其中Gundam模式可通过瓦片化处理超高分辨率图像。
- DeepSeek-3B-MoE解码器：采用混合专家模型，推理时仅激活6个路由专家与2个共享专家，实际运行参数量约5.7亿。这种架构实现了“大模型能力+小模型效率”的平衡，既能精准解析压缩后的视觉特征，又保持了轻量化推理性能。
数据支持
- OCR 1.0数据：收集了3000万页覆盖约100种语言的多样化PDF数据，其中中文和英文约占2500万页。还收集了300万份Word数据，自然场景OCR的图像数据源自LAION和悟空数据集，中英文各1000万样本。
- OCR 2.0数据：包括图表、化学式和平面几何解析数据。其中图表数据使用pyecharts和matplotlib渲染1000万张图像，化学式数据利用PubChem的SMILES格式作为数据源，使用RDKit渲染成图像，构建500万图文对，平面几何数据遵循Slow Perception方法生成，构建100万平面几何解析数据。
性能表现
- 压缩比与精度：在文本密集型的Fox基准测试中，压缩比≤10×时，OCR解码精度达97%以上；压缩比提升至20×时，精度仍维持在60%左右。
- 对比测试：在OmniDocBench基准的实际场景测试中，DeepSeek-OCR仅用100个视觉token即超越GOT-OCR2.0，用不到800个视觉token的表现优于MinerU2.0。
功能特点
- 深度解析能力：具备布局和OCR 2.0能力，可通过二次模型调用进一步解析文档中的图像，对图表、几何图形、化学式甚至自然图像进行深度解析，仅需统一的提示词。
- 多语言识别：可以处理近100种语言的文档，多语言数据也支持通过不同提示词输出布局和非布局OCR格式。
实际应用：DeepSeek-OCR具有强大的实际应用能力，在生产环境中，单个A100-40G GPU每天可以生成20万页数据用于LLM/VLM训练，使用20个节点，每节点8块A100-40G GPU，可每天生成3300万页数据，为未来VLM和LLM的发展提供了重要的数据支持。