基于Bert+LMST+MLP专利相关性筛选项目实践

Wed, 08 Apr 2026 20:00:00 +0900

小样本专利相关性筛选：一个从 100 条不到的标注数据起步的项目实践

很多文本分类项目一开始都会默认一个前提：先有一批像样的标注数据，再谈模型效果。
但真实项目里，经常不是这样。

这次做的是一个专利相关性筛选任务。目标并不复杂：从一批专利中找出与目标技术方向更相关、值得进一步研究的候选专利。真正复杂的是现实条件：

在这种条件下，项目的重点其实不是“堆一个多复杂的模型”，而是先找到一条能跑通、能迭代、能扩充数据的路线。

这篇文章就总结一下这个项目的思路、取舍和踩坑。

从任务定义上看，这其实是一个很标准的二分类问题：

但从业务视角看，它更像一个筛选系统，而不是一个追求绝对准确率的学术分类器。

我真正想解决的问题不是：

“模型能不能把每一条专利都 100% 判对？”

而是：

“能不能先把最值得看的相关候选排到前面，减少人工筛选成本？”

这个目标的变化非常重要。
因为在小样本阶段，模型更适合作为：

而不是最终裁决者。

项目里每条专利大致包含这些字段：

这里有一个容易被忽略但很关键的点：

它的作用是：

但它本身不是语义特征，不应该参与模型学习。
如果把它拼进输入文本里，模型学不到什么有用信息，反而可能引入噪声。

所以在整个流程里，我一直保留 Publication Number，但只把它当作样本主键。

这个问题其实很关键。

一开始最自然的想法是：
既然是文本分类，那就直接用 BERT 微调不就好了？

理论上可以，但在这个项目里不太合适，原因很现实：

简单说就是：模型复杂度和数据规模不匹配。