个人性质的网站备案容易查,建设部网站上查不到资质的企业,西安公司建一个网站需要多少钱,有网站前台如何做后台近年来#xff0c;深度学习技术已广泛应用于NLP领域#xff0c;但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底#xff0c;预训练语言模型横空出世#xff0c;极大缓解了这个问题#xff0c;通过“超大规模无监督语料上的预训练语言模型相对少量的监督样本进… 近年来深度学习技术已广泛应用于NLP领域但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底预训练语言模型横空出世极大缓解了这个问题通过“超大规模无监督语料上的预训练语言模型相对少量的监督样本进行任务精调fine-tuning”可以大幅提升各类NLP任务的效果。由于效果显著和应用机制简单预训练语言模型以前所未有的速度在业界得到广泛应用各大厂纷纷发布自己的预训练模型。现在我们已毫不怀疑预训练语言模型的能力并坚信它的发展必将持续提升各类NLP任务的效果。但是对其能力的上限仍有疑问预训练语言模型能带领我们彻底理解语言吗预训练语言模型的不足2020年GPT-3[1] 发布再一次引发大家对“通用人工智能”的热情。在一开始被GPT-3的效果惊艳之后GPT-3的不足也暴露出来虽然GPT-3能自动从海量的无监督语料中学习到丰富的共现知识并成功应用于下游任务上但GPT-3并未真正理解语言它只是成功地记住和拟合了语料。 如上图GPT-3关于眼睛的问答例子所示如果一个事实没有出现在语料中预训练语言模型只能通过已经记住的语料分布去泛化这会导致出现不可控的答案。因为大量的事实知识是不能泛化的即使个体是相似的它们各自的属性值也不能随意互换。举个例子如果一个模型的训练语料是童话故事那么它从故事中学到的事实知识如太阳是个老爷爷是无法用于现实世界的。这自然引出了一个问题模型没有见过的事实通过知识去补足它无法泛化的事实通过知识去约束它是否可行呢这就是知识图谱在尝试解决的问题。用知识弥补模型的不足知识图谱通过将客观世界中实体、概念、及其事实性描述以结构化的方式显示表述出来提供了一种更好地组织、管理、理解和使用知识的能力并在搜索推荐、智能问答、大数据分析与决策等领域得到了成功应用。不同领域的知识图谱有不同的知识表示范围和问题解决目标例如医疗图谱主要描述疾病、症状、药物、诊断相关知识可用于辅助问诊、辅助诊断、治疗方案推荐等场景商品知识图谱主要描述商品属性、特征、关联关系等可用于导购、客服、营销等场景。那么除了这些具体的领域事实知识和领域应用之外还有哪些通用知识是模型欠缺的能帮助模型像人一样理解语言实际上人对事实知识的记忆能力是远逊于模型的模型可以轻易记住上亿的精准事实知识而人做不到但人的语言理解能力却远远超过任何模型。每个人的知识背景都不尽相同但不同年龄、不同国家、不同专业的人互相之间可以交流。一本架空小说描述的事实和我们生活的真实世界完全不同但读者却可以无障碍地理解。我们自然会认为一定存在一个通用且相对稳定的知识体系能够让不同的人互相交流能够让人读懂从未见过的文章能够让一个人给另一个人讲解清楚新出现的名词。但是这样的通用知识体系是什么样的如何表征和构建如何应用到NLP模型和任务中遗憾的是在人工智能领域虽然从几十年前已开始研究这些问题但目前仍无共识性的答案依然是大家共同努力探索的方向。百度发布“解语”开源工具集就是尝试从中文词汇理解和句子理解的角度对这些问题进行初步探索构建一个通用且相对稳定的中文词汇知识体系将文本与词汇知识体系相关联让模型对中文句子的理解能力更接近于人。直播提醒7月21日19:00本文作者将直播分享项目详情加入PaddleNLP技术交流群即。可观看解语关联中文文本与词汇知识为了能够区分通用知识和领域知识我们选择这样的切入点当一个人看到一个句子如果事先不知道句子涉及的事实知识怎么理解这个句子显然人对句子的理解至少包括以下三层1. 理解句子里都有哪些词2. 理解这些词大概的意义即便有不认识的词也能大概猜出这个词指的是一个人、一件事、还是一种疾病3. 理解这些词之间的关系并与脑海里已有的知识关联。基于这样的考虑我们构建了“解语”主要包括两部分A. 百科知识树(TermTree是一个描述所有中文词汇包括概念、实体/专名、领域术语、语法词等统一称之为Term的树状知识库。B. 中文词类知识标注工具WordTag是首个能够覆盖所有中文词汇的词类知识标注工具结合百科知识树可实现定制化词类序列标注。解语主页https://www.paddlepaddle.org.cn/textToKnowledge百科知识树TermTree百科知识树由两部分构成• TermType词类体系覆盖所有中文词汇词类的树状知识体系是对中文词汇集合的一种全划分层次表示• Term关系和属性值描述具体Term之间关系和Term属性值网状图谱用于整合各应用知识图谱 本次开源的百科知识树V1.0试用版中包含了简化版的TermType体系以及约100万数量的term集合[3]。与其他常见应用知识图谱不同百科知识树的核心是概念词而非专名实体词。因为在中文文本中概念词的含义是相对稳定的而专名实体词随应用变化例如不同电商有不同的商品实体集不同的小说站有不同的小说实体集因此百科知识树通过 “提供常用概念集 可插拔的应用实体集/应用知识图谱” 来达到支持不同的应用适配。百科知识树的主要特点1. 采用树状结构Tree而不是网状结构Net/Graph• 树结构是对知识空间的全划分网状结构是对相关关系的描述和提炼。树结构能够更加方便做到对词类体系的全面描述也可以方便地与网状结构结合使用• 树结构适合概念层次的泛化推理网状结构适合相关性的泛化推理。树结构的知识对统计相关知识有很好的互补作用在应用中能够更好地弥补统计模型的不足。2覆盖所有中文词汇词类经过大规模产业应用实践• 百科知识树的词类体系是在大规模产业应用实践如百科文本解析挖掘、query理解中打磨出来的中文词类体系在理论上可能不是一个完备体系但很适合通用领域中文解析挖掘任务。中文词类知识标注工具WordTagWordTag是首个能够覆盖所有中文词汇的词类知识标注工具旨在为中文文本解析提供全面、丰富的知识标注结果可以应用于模板挖掘模板、解析模板生成与匹配、知识挖掘(新词发现、关系挖掘)等自然语言处理任务中提升文本解析与挖掘精度也可以作为中文文本特征生成器为各类机器学习模型提供文本特征。使用WordTag工具可以方便为中文句子标注上词类序列知识。如下图所示在PaddleNLP工具包中只需要三句代码就可以得到给定中文句子的词类序列标注结果Wordtag与中文分词、词性标注、命名实体识别等工具的区别如下图所示 由于中文是孤立语没有词的形态变化句法结构弱主要依赖“词词序”表达语义。通过WordTag词类知识标注产出完整的Term边界以及上位词类序列能够为文本提供更加丰富的词汇知识特征比一般分词粒度稳定比词性特征区分度高比命名实体识别覆盖面广无论是直接用于挖掘还是作为知识特征加入到DNN模型中都是更全面的知识补充。WordTag的理想目标是在词类序列标注这一维度上逼近人对句子的理解能力也就是说当句子中出现未知词汇时能够通过句子中其他的词及词类知识划分它的边界并分辨出它大概率是什么词类。当前WordTag的效果距离这个目标还有相当大的距离但通过不断基于百科知识树扩充和优化训练样本WordTag会持续优化逐步逼近这个目标。不同场景下的文本解析可能有各自的特殊需求结合百科知识树WordTag可实现定制化词类序列标注。解语的应用场景示例应用场景1分词、命名实体识别、专名挖掘有别于其他的分词工具WordTag的切分目标是尽可能将Term的完整边界切分出来使之更加适用于下游的挖掘任务在实际应用中也可以结合其他基础粒度的中文分词结果共同使用。同时WordTag的标注词类覆盖了中文所有词汇其结果可以直接作为命名实体识别的候选结果使用也可以结合百科知识树进行更细粒度的词类筛选或直接用于专名挖掘。例如上文的例子WordTag结果李伟\人物类_实体 拿出\场景事件 具有\肯定词 科学性\信息资料 、\w 可操作性\信息资料 的\助词 《\w 陕西省高校管理体制改革实施方案\作品类_实体 》\w可直接作为分词结果也可通过作品类_实体标签、人物类_实体标签得到实体候选还可以结合百科知识树进行其他词类的挖掘和过滤。应用场景2文本挖掘模板/解析模板生成与匹配在知识挖掘、query解析、语义一致性判定等应用中文本挖掘/解析模板是最常用的规则模型。WordTag包含了覆盖中文所有词汇的词类标注体系在生成模板以及模板匹配上有着天然的优势。用户可以根据WordTag标注的样本词类序列自动生成或配置更加丰富、精准的挖掘/解析模板然后对目标文本使用WordTag标注即可利用模板进行匹配从而大大降低人工配置模板的代价显著提升生产效率。例如输入文本美人鱼是周星驰执导的电影可将抽取出的词类直接构造成为挖掘匹配模板[作品类_实体][肯定词|是][人物类_实体][场景事件|执导][作品类_概念|电影]利用该模板以及结合百科知识树进行概念扩展可以匹配出所有该句式的文本例如《狂人日记》是鲁迅创作的第一个短篇白话日记体小说《千王之王2000》是一部王晶于1999年执导的喜剧电影《射雕英雄传》是金庸创作的长篇武侠小说WordTag的标注结果中区分了“人物类_实体”和“人物类_概念”以及“作品类_实体”和“作品类_概念”使得模板生成更为精准。同时百科知识树中也区分了命名实体词(eb: entity base)与非实体词(cb: concept base)这样可以利用百科知识树分别进行实体扩展e.g., 周星驰-王晶和概念扩展(e.g., 电影-小说)生成更加丰富多样的模板支持更细化的应用场景。此外模板也可用于文本分类和文本挖掘的样本优化使用WordTag产出样本模板再利用百科知识树进行泛化约束筛选出高置信度的样本或者过滤不合格的样本。应用场景3词类知识增强的DNN模型很多研究在尝试将知识引入模型以获得更好的应用效果。例如[2]提出在关系抽取模型中增加实体类型的信息以达到更优的知识抽取效果。开发者们可以利用WordTag生成词类特征与知识增强的挖掘模型结合应用于自己的中文挖掘任务研究者们也可以利用WordTag与百科知识树提供的丰富的词类特征探索更好的知识增强的中文挖掘模型。除下游任务外也可以将词类知识应用于预训练中例如使用词类知识控制预训练语言模型的掩码过程让预训练语言模型具备更强的通用知识。总结与展望让NLP模型对语言的理解能力逼近人类是所有NLPer的努力目标。一方面我们希望模型能自动学得语料中隐含的知识另一方面我们也希望将人类积累的通用知识通过更高效的方式融入到模型中弥补语料的分布缺陷。“解语”是从中文词汇理解和句子理解的角度尝试构建词汇层次上的通用知识并将其应用到中文文本知识标注中。目前的知识体系及标注效果还在持续优化中此次作为开源数据和工具发布也希望能和大家共同探索通用知识的表征与应用方案打造更具有知识理解能力的NLP模型。 直播提醒看完文章是不是有很多疑问想与作者交流请锁定飞桨B站直播间7月21日19:00本文作者将直播分享项目详情 扫描下方二维码进入PaddleNLP技术交流群技术专家在线答疑解惑直播链接也将同步到交流群中。解语试用地址https://www.paddlepaddle.org.cn/textToKnowledge解语项目地址https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge访问PaddleNLP了解更多应用Star 收藏跟进最新功能吧https://github.com/PaddlePaddle/PaddleNLP参考资料[1] Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[J]. arXiv preprint arXiv:2005.14165, 2020.[2] Zhong Z, Chen D. A Frustratingly Easy Approach for Entity and Relation Extraction[J]. arXiv preprint arXiv:2010.12812, 2020.[3] https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz 点击阅读原文获取直播链接