<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>DeepSeek-OCR on Judy的Blog</title>
    <link>https://my-blog-5ay.pages.dev/tags/deepseek-ocr/</link>
    <description>Recent content in DeepSeek-OCR on Judy的Blog</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 04 Apr 2026 20:00:00 +0900</lastBuildDate>
    <atom:link href="https://my-blog-5ay.pages.dev/tags/deepseek-ocr/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>基于 Unstructured &#43; PaddleOCR &#43; DeepSeek-OCR 的智能 PDF 解析技术路线复盘</title>
      <link>https://my-blog-5ay.pages.dev/posts/pdf_parsing_blog/</link>
      <pubDate>Sat, 04 Apr 2026 20:00:00 +0900</pubDate>
      <guid>https://my-blog-5ay.pages.dev/posts/pdf_parsing_blog/</guid>
      <description>&lt;p&gt;最近终于把一条完整的智能 PDF 解析链路跑通了。整个方案从最开始的 &lt;code&gt;fast&lt;/code&gt; 策略文本提取，到后面的 &lt;code&gt;hi_res&lt;/code&gt;、版面检测、Paddle OCR、表格图块导出，再到 DeepSeek-OCR 对表格进行结构化增强，基本把一条复杂 PDF 的解析链完整打透了。&lt;/p&gt;
&lt;p&gt;最终效果比预期要好，尤其是 &lt;strong&gt;YOLOX 在版面检测阶段对表格区域的提取效果明显优于 detectron2_onnx&lt;/strong&gt;，这一点对后续表格结构化质量提升非常关键。&lt;/p&gt;
&lt;p&gt;这篇文章主要做一个完整复盘，梳理这个项目的核心技术路线、关键模块分工、踩坑点，以及最终可落地的方案。&lt;/p&gt;
&lt;hr&gt;
&lt;h1 id=&#34;一项目目标&#34;&gt;一、项目目标&lt;/h1&gt;
&lt;p&gt;这个项目的核心目标不是单纯做“PDF 转文本”，而是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;对复杂 PDF 做结构化解析&lt;/li&gt;
&lt;li&gt;识别标题、正文、图片、表格等版面元素&lt;/li&gt;
&lt;li&gt;对复杂表格做更高质量的结构化重建&lt;/li&gt;
&lt;li&gt;最终输出统一 JSON，方便后续检索、知识库入库和下游问答&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以本质上，这是一个 &lt;strong&gt;多模型协同的智能文档解析系统&lt;/strong&gt;，而不是一个简单的 OCR 脚本。&lt;/p&gt;
&lt;hr&gt;
&lt;h1 id=&#34;二整体技术路线&#34;&gt;二、整体技术路线&lt;/h1&gt;
&lt;p&gt;整个系统采用的是分阶段流水线：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据接入层&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;支持本地 PDF&lt;/li&gt;
&lt;li&gt;支持数据库二进制 PDF&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;文档解析主链&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 &lt;code&gt;unstructured.partition.pdf.partition_pdf&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;fast&lt;/code&gt; 模式用于基础文本提取&lt;/li&gt;
&lt;li&gt;&lt;code&gt;hi_res&lt;/code&gt; 模式用于复杂版面解析&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;版面检测（Layout Detection）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 &lt;code&gt;detectron2_onnx&lt;/code&gt; / &lt;code&gt;yolox&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;负责识别页面中的 &lt;code&gt;Title&lt;/code&gt;、&lt;code&gt;Text&lt;/code&gt;、&lt;code&gt;Table&lt;/code&gt;、&lt;code&gt;Image&lt;/code&gt; 等区域&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;OCR 识别&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 &lt;code&gt;Paddle OCR&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;对版面检测后的区域做文字识别&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;表格局部增强&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;提取 &lt;code&gt;Table&lt;/code&gt; 元素对应的图块&lt;/li&gt;
&lt;li&gt;调用 &lt;code&gt;DeepSeek-OCR&lt;/code&gt; 做 markdown / HTML 风格重构&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;统一结构化输出&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
