当前位置: 首页 > news >正文

大气网站后台界面网站群建设进展情况汇报

大气网站后台界面,网站群建设进展情况汇报,世界著名的设计公司,最便宜服装网站建设论文笔记--A Fine-grained Interpretability Evaluation Benchmark for Neural NLP 1. 文章简介2. 文章概括3 文章重点技术3.1 数据收集3.2 数据扰动3.3 迭代标注和检查根因3.4 度量3.4.1 Token F1-score3.4.2 MAP(Mean Average Precision) 4. 文章亮点5. 原文传送门 1. 文章简… 论文笔记--A Fine-grained Interpretability Evaluation Benchmark for Neural NLP 1. 文章简介2. 文章概括3 文章重点技术3.1 数据收集3.2 数据扰动3.3 迭代标注和检查根因3.4 度量3.4.1 Token F1-score3.4.2 MAP(Mean Average Precision) 4. 文章亮点5. 原文传送门 1. 文章简介 标题A Fine-grained Interpretability Evaluation Benchmark for Neural NLP作者Lijie Wang, Yaozong Shen, Shuyuan Peng, Shuai Zhang, Xinyan Xiao, Hao Liu, Hongxuan Tang, Ying Chen, Hua Wu, Haifeng Wang日期2022期刊arxiv preprint 2. 文章概括 文章构建了一个新的benchmark用于评估神经网络等算法的可解释性。benchmark包括三种NLP任务情感分析、文本相似度评估和阅读理解。和现有的一些benchmark相比文章给出的benchmark覆盖了中、英文且属于token水平的解释性评估此外该benchmark满足度量可解释性的benchmark的所有基本性质即充分的、紧致的、全面的。 3 文章重点技术 3.1 数据收集 文章考虑了中、英文的三种代表性的NLP任务情感分析、文本相似度评估和阅读理解。 情感分析SA从SST验证/测试集中随机获取1500个样本、从Movie Reviews测试集中随机获取400个样本构建英文评估集从SA API随机获取60000个用户授权的日志标注人员从中选择标注2000个构建中文评估集。语义相似度STS从QQP中随机选择2000个文本对构建英文评估集从LCQMC中随机选择2000个文本对构建中文评估集。机器阅读理解MRC从SQUAD2.0中随机选择1500个问答对和500个没有回答的问题作为英文评估集从DuReader中随机筛选1500个问答对和500个没有回答的问题作为中文评估集。 3.2 数据扰动 为了评估模型的faithfulness根因在多大程度上影响输出结果文章希望度量相同的模型决策机制下外界扰动对根因是否有影响。一个好的根因应该满足“当扰动发生时根因和预测输出的变化是一致的输出不变则根因也不变。   文章从两个角度构建扰动1) 扰动不影响根因和预测结果 2扰动造成了根因的改变且可能会影响预测结果。基于这两个角度文章定义了三种类型的扰动 可有可无的单词的改变插入、删除、替换可有可无的单词应该对模型结果和根因没有影响。比如what are some reasons to travel alone修改为List some reasons to travel alone.重要单词的改变替换重要的单词为它们的同义词或者相关的单词会对结果和根因造成影响。如I dislike you修改为I hate you.同义变换将句子的结构进行变换但不改变语义此时模型的预测结果和根因都不发生改变。如The customer commented the hotel修改为The hotel is commented by the customer.   标注时标注员会首先选定一种扰动类型然后基于原句子构建一个该句子符合该扰动类别的实例和真实结果。 3.3 迭代标注和检查根因 标记员会原始输入中对输入影响较大的tokens为根因rationales。一些研究认为好的rationale应该满足以下三点 充分性包含足够的信息支撑人去做正确的预测紧致性所有tokens都可以有效支撑预测即移除任意一个token都无法做正确的预测全面性所有可以支撑输出的tokens都在这个rationale中。   基于上述原则文章设计了下述工作流保证标注数据的质量step1标注根因普通的标记员根据输入、输出标记rationalesstep2根因打分高级的标记员来对根因进行double-check。首先标记员按照充分性对根因进行打分不能支撑结果(1) 不确定(2) 可以支撑结果(3)然后标记员按照紧致性对根因进行打分包含多余的tokens(1) 包含扰动(2) 不确定(3) 精准(4) 最后标记员对每个输入的所有rationale sets的全面性进行打分不全面(1) 不确定(2) 全面(3)。如果一个rationale在三个维度的得分低于给定阈值则进入下一环节step3: 根因修改针对step2中产生的低质量的根因标记人员会尝试重新修改根因然后重新进行step2的打分环境。如果打分仍不满足要求则直接放弃该case。   如下表所示相比于现存的评估集按照上述三个步骤构建的评估集满足全部要求。 3.4 度量 为了构建更合理地对模型表现进行度量文章采用token-F1来度量可信度(plausibility)MAP来度量忠实度faithfulness) 3.4.1 Token F1-score 如下式定义token F1-score用于计算token之间重叠的比例用于评估可信度模型给出根因和真实根因的对齐程度 T o k e n − F 1 1 N ∑ i 1 N ( 2 × P i × R i P i R i ) , w h e r e P i ∣ S i p ∩ S i g ∣ ∣ S i p ∣ , a n d R i ∣ S i p ∩ S i g ∣ ∣ S i g ∣ Token-F1 \frac 1N \sum_{i1}^N \left(2 \times \frac {P_i \times R_i}{P_i R_i}\right), \\ where\ P_i \frac {|S_i^p \cap S_i^g|}{|S_i^p|}, \ and \ R_i \frac {|S_i^p \cap S_i^g|}{|S_i^g|} Token−F1N1​i1∑N​(2×Pi​Ri​Pi​×Ri​​),where Pi​∣Sip​∣∣Sip​∩Sig​∣​, and Ri​∣Sig​∣∣Sip​∩Sig​∣​, 其中 S i p , S i g S_i^p, S_i^g Sip​,Sig​分别表示第i个样本的预测根因集合和人类标注的根因集合。 3.4.2 MAP(Mean Average Precision) 如下式定义MAP用于度量扰动后的根因一致性被用于表示faithfulness M A P ∑ i 1 ∣ X p ∣ ( ∑ j 1 i G ( x j p , x 1 : i o ) ) / i ) ∣ X p ∣ MAP\frac {\sum_{i1}^{|X^p|}\left(\sum_{j1}^i G(x_j^p, x_{1:i}^o))/i \right)}{|X^p|} MAP∣Xp∣∑i1∣Xp∣​(∑j1i​G(xjp​,x1:io​))/i)​其中 X o , X p X^o, X^p Xo,Xp分别表示原始和扰动后的输入的排列后的根因按照重要性排列可以理解为扰动后的输出的第 i i i重要的根因出现在原始输入前 j j j重要的根因的概率均值。 4. 文章亮点 文章给出了一个中、英文双语的情感分类、文本相似度和阅读理解benchmark相比于现存的benchmark该benchmark满足充分性、紧致性和全面性。此外为了更准确的评估模型可解释性文章提出通过Token F1-score, MAP进行更准确、更全面的度量。 5. 原文传送门 [https://arxiv.org/pdf/2205.11097.pdf](A Fine-grained Interpretability Evaluation Benchmark for Neural NLP)
http://www.zqtcl.cn/news/493824/

相关文章:

  • 哪个网站做logo设计师网络营销心得体会800字
  • 广州一起做的网站动态数据库网站
  • 网站程序预装深圳市住房和建设局陈斌
  • 网站建设历程wordpress国内主题排行
  • 公司网站建设及优化计划书找能做网站的
  • 网站建设方案模板下载南宁有名的网络公司
  • 本地做织梦网站做软件怎么赚钱
  • a站全称重庆大学网络教育平台
  • 美橙做过网站案例好文案网站
  • 鞍山商城网站建设国外代理ip
  • 东莞网站设计风格wordpress不能启动怎么解决
  • 社交网站制作临海建设局网站导航
  • 合肥需要做网站的公司佛山网站制作的公司
  • 哪里有做网站平台建设网站如何盈利
  • dw网站制作素材单人做网站需要掌握哪些知识
  • 网络推广产品公司做移动网站优化首
  • 网站建设dqcx广告网络用语
  • 烟台网站建设首推企汇互联见效付款手机网站宽度自适应
  • 网站建设小程序湖南wordpress插件刷不出来
  • 中国建设银行网站首页joy荣添创意网站建设
  • 市场营销网站网站开发技术项目说明书
  • 销售网站开发的背景wordpress虚线框可序列
  • 免费响应式网站深圳关键词优化
  • 网站宣传模式做微视频的网站
  • 网站改版后的内容福建 网站建设
  • 网站的文件夹企业邮箱在哪查看
  • 开了360网站卫士ssl如何做301深圳制作网站开发费用
  • 在哪里做马可波罗网站公众号自己做电影网站
  • 网站建设音乐插件怎么弄陕西城乡建设部网站首页
  • 全国免费自学网站打开百度网站首页