短文本知识标注系统

百度内部基础设施,从词汇理解和句子理解的角度探索中文通用知识表征与应用。通过构建中文全词类知识库,将文本与通用词汇知识体系相关联,让模型对中文语句的理解能力更接近于人,从而实现通用域中文文本的精准解析与挖掘。

📅 2019 - 2023 👤 技术负责人(4人团队) 🏢 百度
[ 系统架构图 / 演示视频占位区 ]

知识标注系统架构示意 / 可放置架构图、流程图或技术演示

项目影响

30+
上线项目
亿级
年度辐射收入
95%+
分类 F1 分数
93%+
序列标注准确率

知识库建设

模型架构

数据工程

训练集构建:利用多种方式从搜索日志及各项垂类业务中采样出百万级文本样本。按照意图区分为单片段和多片段文本并分别生产和优化,提升模型对新词热词、热门实体、热门事件的识别效果。通过抽象构建过程中的通用模块,在较短时间内完成模型样本的快速补充和迭代。

测试集设计:按照通用文本、特殊垂类、重点业务需求、常见恶劣 case 四方面设计构建测试集,指导外包进行人工标注。通过观察模型迭代过程中在各测试集上的效果,保证每次模型升级效果均为正向,避免模型升级带来的不可控问题。

知识应用

技术栈

Python PaddlePaddle NLP 深度学习 Prompt Learning 知识图谱 数据工程 模型部署 GPU/CPU 集群 Airflow

开源与专利

相关链接