网站制作自助,建筑公司简介模板范文,小说网站开发成本,房产网app【学而不思则罔#xff0c;思而不学则殆】
1.问题
NLP序列标注问题#xff0c;样本不均衡怎么解决#xff1f;
2.解释
以命名实体识别#xff08;NER#xff09;为例#xff0c;这个样本不均衡有两种解释#xff1a; #xff08;1#xff09;实体间类别数量不均衡…【学而不思则罔思而不学则殆】
1.问题
NLP序列标注问题样本不均衡怎么解决
2.解释
以命名实体识别NER为例这个样本不均衡有两种解释 1实体间类别数量不均衡比如医疗知识图谱中疾病现象比治疗手段多得多 2实体和非实体的数量不均衡一句话中标注为O的数量占比比较大约60%-90%。 第一类问题会导致实体类别分类不准也就是会影响P查准率第二类问题会导致实体可能识别不出来会影响R查全率
3.思路
针对第一类问题 传统的几个思路 1思路一增加小样本数量首先考虑增加原始样本数量其次考虑数据增强如滑动窗口属于简单有效的方法 2思路二在不影响性能的情况下可以考虑减少样本数量多的类别样本这种也能平衡类别数量还能加快训练 3思路三改变损失函数本质是给小样本加权比如用focal loss。 4思路四用两个或多个分类模型一个用来识别大样本类别一个用来识别小样本类别极端情况下一种类别一个分类算法好处是每种类别的性能可以针对性调优坏处是模型太多训练和预测更耗时。 就像问题中的图大样本和小样本比较极端就可以考虑用两个分类模型。
针对第二类问题 1思路一剔除掉纯O的句子 1思路二减少一句话中O的数量 如
建立原句的语法分析树只取需要的部分。
参考 知乎中有类似的问题 https://www.zhihu.com/question/340333687