建设网站的目的和意义,网络营销案例事件,坪山网站的建设,比选三家网站建设公司1、背景
命名实体识别#xff08;named entity recognition#xff0c;NER#xff09;#xff1a;通常是一个序列标注的任务#xff0c;常见的模型框架有#xff1a;LSTM-CRF、BERTBILSTMCRF等#xff0c;该种任务通常被成为flat NER即#xff1a;每一个token只分配一…1、背景
命名实体识别named entity recognitionNER通常是一个序列标注的任务常见的模型框架有LSTM-CRF、BERTBILSTMCRF等该种任务通常被成为flat NER即每一个token只分配一个label;序列标准任务还会受到分词器的影响而对于nested NER即一个token可能被赋予多个实体。如老中医本身中医是一个学科实体但是“中医”与“老”连起来表达的是一个身份实体即中医被赋予了不同的含义
2、原理介绍
目前基于QA问答形式的大模型技术日前在蓬勃的发展通过问答任务训练实体识别NER任务被称之为MRC机器阅读理解。将目标词实体类型当成一个自然语言的查询query对于给定的上下文句子以回答问题的方式将实体值识别出来。
1任务的目标对于输入的文本句子序列X {x1, x2… xn}其中n表示序列的长度需要从文本句子X中找到每个实体片段span然后给该实体片段分配一个标签y∈y其中y是一个预定义的所有可能的标签类型目标词的列表(如地址、电话号码、职业、学历等实体类型)
2模型的框架将{[CLS], q1, q2, ..., qm, [SEP], x1, x2, ..., xn},其中qy表示的是目标实体类型y对应的查询即将带识别的目标词和文本上下文放在一起送入大模型进行统一的编码根据生成的embedding表示通过分类任务进行实体片段的识别
3片段识别器通过双指针网络从输入的x1, x2, ..., xn中发现实体span的起点和终点模型寻找start和end的过程n个二分类器的判读过程即对于输入n长度的文本句子中的每个词进行二分类器判断是否是起点还是终点这样通过定的上下文和特定的查询输出多个开始索引和多个结束索引。对于每个位置的embedding进行T转化生成起始位置的概率分布同理可生成终止位置的概率分布在起始的概率分布中找到概率最大对应的位置作为起始位置在终止的概率分布中找到概率最大对应的位置作为终止位置根据起始位置和终止位置对应的embedding拼接后进行二分类判断是否为span整体的loss包含了位置的loss是否是起点和终点以及span的loss是否是对应的起点和终点。 3、chatGLM做实体识别的例子
微调数据构建
首先我们需要将NER标记风格的数据集转换成一组 (上下文、问题、答案) 三元组。有每个标签类型y∈Y它与自然语言问题qy相关联,qy {q1, q2, ..., qm} 其中m表示生成的查询的长度。注释实体xstart,end {xstart, xstart1···end-1, xend}是满足start≤end的X的子字符串。每个实体都有一个真实标签y∈y。通过基于标签y生成一个自然语言问题qy我们可以获得三元组(qy, xstart,end, X)这正是我们需要的三元组(问题答案上下文)。注意我们使用下标“start,end”来表示从 start 到 end 的连续标记。 4、参考文献
[1]https://www.zhihu.com/question/452002433/answer/2327252882?utm_psn1722650204480577536 [2]A Unified MRC Framework for Named Entity Recognition 论文链接https://arxiv.org/pdf/1910.11476.pdf 代码链接GitHub - ShannonAI/mrc-for-flat-nested-ner: Code for ACL 2020 paper A Unified MRC Framework for Named Entity Recognition [3]Pointer Networks [4] UIE:Unified Structure Generation for Universal Information Extraction