短文本知识标注系统

百度内部基础设施，从词汇理解和句子理解的角度探索中文通用知识表征与应用。通过构建中文全词类知识库，将文本与通用词汇知识体系相关联，让模型对中文语句的理解能力更接近于人，从而实现通用域中文文本的精准解析与挖掘。

📅 2019 - 2023 👤 技术负责人（4人团队） 🏢 百度

[ 系统架构图 / 演示视频占位区 ]

知识标注系统架构示意 / 可放置架构图、流程图或技术演示

项目影响

30+

上线项目

亿级

年度辐射收入

95%+

分类 F1 分数

93%+

序列标注准确率

TermTree 知识库负责维护解语知识库 TermTree，参与设计层次体系，主导构建数据生产流程。筛选高频实体和常见概念收录入 TermTree（百万级），有效支持公司内多项在线、离线知识数据检索需求。
百科词条关联负责将 2 千万百科词条收录入知识库，设计整体计算流程（预处理、粗分类、关键词召回、类别细化、知识库关联、知识库更新）。准确率达 98%，召回 98%+，生成 2.6kw+ 高质量结果。

多任务模型结构基于 prompt-learning 对短文本进行主题和意图分类，以及词类序列标注。利用类别和词类相关性关系提升概念和实体识别准确率。
标签体系设计辅助设计模型分类及序列标注标签体系。分类覆盖常见主题类型（20+ 大类、600+ 小类）；序列标注对中文词汇空间进行全划分，对常见复合词进行更细粒度划分。
模型效果在常见 query 验证集上分类 F1 = 95%+，序列标注切分准确率 93%+。在内部广泛支持搜索、广告、AIGC 等多体系多项重点业务。

训练集构建：利用多种方式从搜索日志及各项垂类业务中采样出百万级文本样本。按照意图区分为单片段和多片段文本并分别生产和优化，提升模型对新词热词、热门实体、热门事件的识别效果。通过抽象构建过程中的通用模块，在较短时间内完成模型样本的快速补充和迭代。

测试集设计：按照通用文本、特殊垂类、重点业务需求、常见恶劣 case 四方面设计构建测试集，指导外包进行人工标注。通过观察模型迭代过程中在各测试集上的效果，保证每次模型升级效果均为正向，避免模型升级带来的不可控问题。

Python PaddlePaddle NLP 深度学习 Prompt Learning 知识图谱数据工程模型部署 GPU/CPU 集群 Airflow