专利筛选 | Judy的Blog

小样本专利相关性筛选：一个从 100 条不到的标注数据起步的项目实践很多文本分类项目一开始都会默认一个前提：先有一批像样的标注数据，再谈模型效果。但真实项目里，经常不是这样。这次做的是一个专利相关性筛选任务。目标并不复杂：从一批专利中找出与目标技术方向更相关、值得进一步研究的候选专利。真正复杂的是现实条件：已标注样本不到 100 条正样本更少未标注样本有上千条专利文本很长，表达也不统一结果还需要能回写到原始表格，方便人工复核在这种条件下，项目的重点其实不是“堆一个多复杂的模型”，而是先找到一条能跑通、能迭代、能扩充数据的路线。这篇文章就总结一下这个项目的思路、取舍和踩坑。 1. 项目到底在做什么从任务定义上看，这其实是一个很标准的二分类问题： relevant：相关专利 irrelevant：不相关专利但从业务视角看，它更像一个筛选系统，而不是一个追求绝对准确率的学术分类器。我真正想解决的问题不是： “模型能不能把每一条专利都 100% 判对？” 而是： “能不能先把最值得看的相关候选排到前面，减少人工筛选成本？” 这个目标的变化非常重要。因为在小样本阶段，模型更适合作为：概率打分器候选发现器人工筛选辅助工具而不是最终裁决者。 2. 数据长什么样项目里每条专利大致包含这些字段： Publication Number：公开号 Claims：权利要求相关文本 Description：描述文本 IPC：国际专利分类号 label：人工标注结果，仅训练阶段有这里有一个容易被忽略但很关键的点： Publication Number 要保留，但不要喂给模型它的作用是：标识这条样本是谁后续和原始 Excel 对齐预测结果回写人工复核定位但它本身不是语义特征，不应该参与模型学习。如果把它拼进输入文本里，模型学不到什么有用信息，反而可能引入噪声。所以在整个流程里，我一直保留 Publication Number，但只把它当作样本主键。 3. 为什么没有一上来就重度微调 BERT 这个问题其实很关键。一开始最自然的想法是：既然是文本分类，那就直接用 BERT 微调不就好了？理论上可以，但在这个项目里不太合适，原因很现实：已标注样本太少正负样本不平衡文本很长输入字段比较多直接全参数微调很容易过拟合简单说就是：模型复杂度和数据规模不匹配。 ...