基于 Unstructured + PaddleOCR + DeepSeek-OCR 的智能 PDF 解析技术路线复盘

Sat, 04 Apr 2026 20:00:00 +0900

最近终于把一条完整的智能 PDF 解析链路跑通了。整个方案从最开始的 fast 策略文本提取，到后面的 hi_res、版面检测、Paddle OCR、表格图块导出，再到 DeepSeek-OCR 对表格进行结构化增强，基本把一条复杂 PDF 的解析链完整打透了。

最终效果比预期要好，尤其是 YOLOX 在版面检测阶段对表格区域的提取效果明显优于 detectron2_onnx，这一点对后续表格结构化质量提升非常关键。

这篇文章主要做一个完整复盘，梳理这个项目的核心技术路线、关键模块分工、踩坑点，以及最终可落地的方案。

一、项目目标

这个项目的核心目标不是单纯做“PDF 转文本”，而是：

对复杂 PDF 做结构化解析
识别标题、正文、图片、表格等版面元素
对复杂表格做更高质量的结构化重建
最终输出统一 JSON，方便后续检索、知识库入库和下游问答

所以本质上，这是一个 多模型协同的智能文档解析系统，而不是一个简单的 OCR 脚本。

二、整体技术路线

整个系统采用的是分阶段流水线：

数据接入层
- 支持本地 PDF
- 支持数据库二进制 PDF
文档解析主链
- 使用 unstructured.partition.pdf.partition_pdf
- fast 模式用于基础文本提取
- hi_res 模式用于复杂版面解析
版面检测（Layout Detection）
- 使用 detectron2_onnx / yolox
- 负责识别页面中的 Title、Text、Table、Image 等区域
OCR 识别
- 使用 Paddle OCR
- 对版面检测后的区域做文字识别
表格局部增强
- 提取 Table 元素对应的图块
- 调用 DeepSeek-OCR 做 markdown / HTML 风格重构
统一结构化输出

OCR-SLAM3 基本理解

Thu, 26 Mar 2026 09:30:00 +0900

视觉 SLAM 核心理解（以 ORB-SLAM3 为例）

一、什么是 SLAM

SLAM（Simultaneous Localization and Mapping）解决的问题是：

在未知环境中，通过传感器数据，同时估计自身位姿（Localization）并构建环境地图（Mapping）。

对于视觉 SLAM：

输入：图像序列（单目 / 双目 / RGB-D）
输出：
- 相机轨迹（Pose）
- 地图（Map）

本质上是一个：

时序状态估计 + 几何重建 + 优化问题

二、SLAM 的核心问题拆解

SLAM 的本质可以拆成三个核心子问题：

1️⃣ 位姿估计（Localization）

目标：

求解每一时刻相机在世界坐标系中的位姿 (T_{cw})

依赖：

图像特征
2D-3D 或 2D-2D 约束
几何模型（PnP / 本质矩阵）

2️⃣ 地图构建（Mapping）

目标：

从多帧观测中恢复三维结构

方式：

双目视差（Stereo）
多视图三角化（Monocular）

结果：

稀疏地图（MapPoints）
关键帧结构（KeyFrames）

3️⃣ 优化（Optimization）

目标：

通过最小化重投影误差，提高整体一致性

核心形式：

min \sum || x - \pi(T \cdot X) ||^2

其中：

Posts on Judy的Blog