<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Posts on Judy的Blog</title>
    <link>https://my-blog-5ay.pages.dev/posts/</link>
    <description>Recent content in Posts on Judy的Blog</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 04 Apr 2026 20:00:00 +0900</lastBuildDate>
    <atom:link href="https://my-blog-5ay.pages.dev/posts/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>基于 Unstructured &#43; PaddleOCR &#43; DeepSeek-OCR 的智能 PDF 解析技术路线复盘</title>
      <link>https://my-blog-5ay.pages.dev/posts/pdf_parsing_blog/</link>
      <pubDate>Sat, 04 Apr 2026 20:00:00 +0900</pubDate>
      <guid>https://my-blog-5ay.pages.dev/posts/pdf_parsing_blog/</guid>
      <description>&lt;p&gt;最近终于把一条完整的智能 PDF 解析链路跑通了。整个方案从最开始的 &lt;code&gt;fast&lt;/code&gt; 策略文本提取，到后面的 &lt;code&gt;hi_res&lt;/code&gt;、版面检测、Paddle OCR、表格图块导出，再到 DeepSeek-OCR 对表格进行结构化增强，基本把一条复杂 PDF 的解析链完整打透了。&lt;/p&gt;
&lt;p&gt;最终效果比预期要好，尤其是 &lt;strong&gt;YOLOX 在版面检测阶段对表格区域的提取效果明显优于 detectron2_onnx&lt;/strong&gt;，这一点对后续表格结构化质量提升非常关键。&lt;/p&gt;
&lt;p&gt;这篇文章主要做一个完整复盘，梳理这个项目的核心技术路线、关键模块分工、踩坑点，以及最终可落地的方案。&lt;/p&gt;
&lt;hr&gt;
&lt;h1 id=&#34;一项目目标&#34;&gt;一、项目目标&lt;/h1&gt;
&lt;p&gt;这个项目的核心目标不是单纯做“PDF 转文本”，而是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;对复杂 PDF 做结构化解析&lt;/li&gt;
&lt;li&gt;识别标题、正文、图片、表格等版面元素&lt;/li&gt;
&lt;li&gt;对复杂表格做更高质量的结构化重建&lt;/li&gt;
&lt;li&gt;最终输出统一 JSON，方便后续检索、知识库入库和下游问答&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以本质上，这是一个 &lt;strong&gt;多模型协同的智能文档解析系统&lt;/strong&gt;，而不是一个简单的 OCR 脚本。&lt;/p&gt;
&lt;hr&gt;
&lt;h1 id=&#34;二整体技术路线&#34;&gt;二、整体技术路线&lt;/h1&gt;
&lt;p&gt;整个系统采用的是分阶段流水线：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据接入层&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;支持本地 PDF&lt;/li&gt;
&lt;li&gt;支持数据库二进制 PDF&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;文档解析主链&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 &lt;code&gt;unstructured.partition.pdf.partition_pdf&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;fast&lt;/code&gt; 模式用于基础文本提取&lt;/li&gt;
&lt;li&gt;&lt;code&gt;hi_res&lt;/code&gt; 模式用于复杂版面解析&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;版面检测（Layout Detection）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 &lt;code&gt;detectron2_onnx&lt;/code&gt; / &lt;code&gt;yolox&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;负责识别页面中的 &lt;code&gt;Title&lt;/code&gt;、&lt;code&gt;Text&lt;/code&gt;、&lt;code&gt;Table&lt;/code&gt;、&lt;code&gt;Image&lt;/code&gt; 等区域&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;OCR 识别&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 &lt;code&gt;Paddle OCR&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;对版面检测后的区域做文字识别&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;表格局部增强&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;提取 &lt;code&gt;Table&lt;/code&gt; 元素对应的图块&lt;/li&gt;
&lt;li&gt;调用 &lt;code&gt;DeepSeek-OCR&lt;/code&gt; 做 markdown / HTML 风格重构&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;统一结构化输出&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>OCR-SLAM3 基本理解</title>
      <link>https://my-blog-5ay.pages.dev/posts/orb-slam3/</link>
      <pubDate>Thu, 26 Mar 2026 09:30:00 +0900</pubDate>
      <guid>https://my-blog-5ay.pages.dev/posts/orb-slam3/</guid>
      <description>&lt;h1 id=&#34;视觉-slam-核心理解以-orb-slam3-为例&#34;&gt;视觉 SLAM 核心理解（以 ORB-SLAM3 为例）&lt;/h1&gt;
&lt;h2 id=&#34;一什么是-slam&#34;&gt;一、什么是 SLAM&lt;/h2&gt;
&lt;p&gt;SLAM（Simultaneous Localization and Mapping）解决的问题是：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;在未知环境中，通过传感器数据，同时估计自身位姿（Localization）并构建环境地图（Mapping）。&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;对于视觉 SLAM：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;输入：图像序列（单目 / 双目 / RGB-D）&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;输出：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;相机轨迹（Pose）&lt;/li&gt;
&lt;li&gt;地图（Map）&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;本质上是一个：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;时序状态估计 + 几何重建 + 优化问题&lt;/strong&gt;&lt;/p&gt;&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id=&#34;二slam-的核心问题拆解&#34;&gt;二、SLAM 的核心问题拆解&lt;/h2&gt;
&lt;p&gt;SLAM 的本质可以拆成三个核心子问题：&lt;/p&gt;
&lt;h3 id=&#34;1-位姿估计localization&#34;&gt;1️⃣ 位姿估计（Localization）&lt;/h3&gt;
&lt;p&gt;目标：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;求解每一时刻相机在世界坐标系中的位姿 (T_{cw})&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;依赖：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;图像特征&lt;/li&gt;
&lt;li&gt;2D-3D 或 2D-2D 约束&lt;/li&gt;
&lt;li&gt;几何模型（PnP / 本质矩阵）&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id=&#34;2-地图构建mapping&#34;&gt;2️⃣ 地图构建（Mapping）&lt;/h3&gt;
&lt;p&gt;目标：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;从多帧观测中恢复三维结构&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;方式：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;双目视差（Stereo）&lt;/li&gt;
&lt;li&gt;多视图三角化（Monocular）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;结果：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;稀疏地图（MapPoints）&lt;/li&gt;
&lt;li&gt;关键帧结构（KeyFrames）&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id=&#34;3-优化optimization&#34;&gt;3️⃣ 优化（Optimization）&lt;/h3&gt;
&lt;p&gt;目标：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;通过最小化重投影误差，提高整体一致性&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;核心形式：&lt;/p&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code class=&#34;language-math&#34; data-lang=&#34;math&#34;&gt;min \sum || x - \pi(T \cdot X) ||^2
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;其中：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
