DeepSeek-OCR是DeepSeek-AI团队于2025年10月20日开源的一项突破性OCR模型,它通过“上下文光学压缩”技术,为OCR任务及大语言模型长上下文处理提供了全新解决方案。

  • 技术原理:DeepSeek-OCR提出“上下文光学压缩”理念,将文本渲染为图像,通过视觉模型压缩为少量token,再由语言模型解码还原,形成“压缩-解压”的完整链路。该模型认为一张包含文档文本的图像所需的token数量远少于等效数字文本,通过视觉token进行光学压缩可以实现更高的压缩比,从而解决LLM处理长文本时计算复杂度高的问题。
  • 核心架构
    • DeepEncoder编码器:参数量约3.8亿,融合了SAM与CLIP的优势架构。前半部分采用8000万参数的SAM-base,通过窗口注意力机制处理局部视觉细节;后半部分采用3亿参数的CLIP-large,以密集全局注意力捕获整体知识信息。在双模块之间加入2层卷积模块,将SAM输出的4096个patch token压缩至256个,降低全局注意力计算的内存开销。此外,还设计了原生分辨率与动态分辨率两类输入模式,其中Gundam模式可通过瓦片化处理超高分辨率图像。
    • DeepSeek-3B-MoE解码器:采用混合专家模型,推理时仅激活6个路由专家与2个共享专家,实际运行参数量约5.7亿。这种架构实现了“大模型能力+小模型效率”的平衡,既能精准解析压缩后的视觉特征,又保持了轻量化推理性能。
  • 数据支持
    • OCR 1.0数据:收集了3000万页覆盖约100种语言的多样化PDF数据,其中中文和英文约占2500万页。还收集了300万份Word数据,自然场景OCR的图像数据源自LAION和悟空数据集,中英文各1000万样本。
    • OCR 2.0数据:包括图表、化学式和平面几何解析数据。其中图表数据使用pyecharts和matplotlib渲染1000万张图像,化学式数据利用PubChem的SMILES格式作为数据源,使用RDKit渲染成图像,构建500万图文对,平面几何数据遵循Slow Perception方法生成,构建100万平面几何解析数据。
  • 性能表现
    • 压缩比与精度:在文本密集型的Fox基准测试中,压缩比≤10×时,OCR解码精度达97%以上;压缩比提升至20×时,精度仍维持在60%左右。
    • 对比测试:在OmniDocBench基准的实际场景测试中,DeepSeek-OCR仅用100个视觉token即超越GOT-OCR2.0,用不到800个视觉token的表现优于MinerU2.0。
  • 功能特点
    • 深度解析能力:具备布局和OCR 2.0能力,可通过二次模型调用进一步解析文档中的图像,对图表、几何图形、化学式甚至自然图像进行深度解析,仅需统一的提示词。
    • 多语言识别:可以处理近100种语言的文档,多语言数据也支持通过不同提示词输出布局和非布局OCR格式。
  • 实际应用:DeepSeek-OCR具有强大的实际应用能力,在生产环境中,单个A100-40G GPU每天可以生成20万页数据用于LLM/VLM训练,使用20个节点,每节点8块A100-40G GPU,可每天生成3300万页数据,为未来VLM和LLM的发展提供了重要的数据支持。
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯