当前位置: 首页 > news >正文

黔东南购物网站开发设计4399小游戏网站入口

黔东南购物网站开发设计,4399小游戏网站入口,百度网站,昆明建设银行纪念币预约网站点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入#xff01; 作者简介 李江梦#xff0c;中国科学院软件研究所天基综合信息系统全国重点实验室助理研究员 论文简介 今天介绍的是被机器学习领域顶级学术会议ICLR 2024接收的论文#xff1a;BayesPrompt: Prompting Large… 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 作者简介 李江梦中国科学院软件研究所天基综合信息系统全国重点实验室助理研究员 论文简介 今天介绍的是被机器学习领域顶级学术会议ICLR 2024接收的论文BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷因此提出了BayesPrompt来学习包含域判别信息的提示以对抗域无关知识的干扰。理论上BayesPrompt的泛化误差界比基准的Prompt-Tuning方法更紧致实验上BayesPrompt在基准测试中取得了最先进的性能。 论文地址 https://arxiv.org/abs/2401.14166 代码地址 https://github.com/FF2127/bayesprompt Context 概述 作为一种基于大规模预训练语言模型PLMs的新颖有效的微调范式Prompt-Tuning旨在缩小下游任务与预训练目标之间的差距。尽管Prompt-Tuning在各种任务中取得了持续的进展但这种方法仍然长期存在一个缺陷即Prompt-Tuning方法在泛化到特定的少样本模式时可能会失效。该论文从分布分析的视角揭示了这一现象背后的本质问题即PLMs中包含的概念知识过多以及用于目标下游域的知识不完整这两者共同导致了PLMs在通用知识嵌入空间中错误地定位到与目标域相对应的知识分布。为此该论文探索以去偏的方式近似下游任务的完整目标域然后抽象这些域以生成判别性提示从而为PLMs提供消除歧义的指导。在这种直觉的引导下该论文提出了一种简单而有效的方法即BayesPrompt来学习包含域判别信息的提示以对抗域无关知识的干扰。BayesPrompt利用已知分布来近似目标域的去偏真实分布并进一步从近似分布中均匀采样代表性特征以生成对PLMs的提示。该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷但其与Prompt-Tuning之间仍然存在联系并且进一步证明了BayesPrompt的理论优势即其泛化误差界比基准的Prompt-Tuning方法更紧致。实验上BayesPrompt在基准测试中取得了最先进的性能。 动机与分析 受益于海量的数据集、庞大可训练的模型参数以及设计良好的训练架构PLMs在诸如机器翻译、文本生成、信息抽取等自然语言处理领域已经取得了显著的成功。然而对于特定的下游任务PLMs遇到了发展瓶颈尤其是在少样本场景下未能达到研究人员的期望。这一问题的内在原因在于PLMs包含过多的概念知识。换句话说PLMs包含的知识呈现固有的多义性。这导致与域无关的知识可能干扰对下游任务的推理特别是对少样本数据来说。为了弥补这一不足近年来的研究提出了设计良好的提示以指导PLMs从而避免在下游任务中出现推理异常值。但手动构建这样的提示需要专业知识和大量的工作。为此数据驱动的可训练提示应运而生并在PLMs的下游推理中取得了显著的性能提升。然而这种提示的学习范式仍然面临着长期存在的挑战即来自下游域的训练样本中包含的有限且离散的语义信息无法较好地支持传统可训练提示获得足够的监督使得生成的提示对PLMs的指导变得微不足道。特别是这一挑战进一步加剧了PLMs在少样本场景下的性能下降。 图1 分布视角 为了进一步理解PLMs在少样本场景下的缺陷背后的隐式和内在原因该论文从分布视角重新审视了PLMs下游推理的操作原理。在图1(a) 展示的没有提示的传统推理范式中一些样本可能包含直接干扰PLMs推理的信息。该论文将这一现象归因于这样一个事实干扰样本同时属于PLMs知识嵌入空间中的多个域分布而模型无法在没有包含域判别信息的提示的情况下确定所需要的域。因此过多的概念知识虽然可以赋予PLMs理解通用概念的能力但也可能干扰对特定任务的推理。对于图1(b)和(c) 中展示的具有可训练提示的推理范式具有有限训练样本的下游域中所包含的信息可能会导致PLMs的知识歧义而相应完整域中包含的信息可以有效地应对这一问题。该论文推测有限的训练样本导致可训练的提示学习到目标域的有偏分布该分布仅包含部分信息并与目标域的实际分布不一致从而导致协变量偏移问题因此仍然为PLMs提供有歧义指导。为此该论文探索以去偏方式近似下游任务的完整训练域然后通过域抽象生成判别性提示从而为PLMs提供去歧义指导。 方法 图2 模型框架图 具体来说该论文提出了一种称为BayesPrompt的新方法其首先利用已知分布来近似下游域的去偏真实分布然后从近似分布中均匀采样代表性特征以生成对PLMs的提示。基于以上操作BayesPrompt的行为可以被视为去偏域抽象。分布近似是通过使用Stein变分梯度下降SVGD实现的这是一种通用的贝叶斯推断算法。由于在实践中观察到选择传统的高斯分布作为已知分布会退化对下游域分布的近似因此构建了高斯混合模型GMM来拟合样本分布。然后利用所得到的分布和样本表示来初始化SVGD算法的目标分布和粒子。通过SVGD的迭代更新得到一组新粒子集其近似于目标分布。通过从近似的目标分布中采样获得包含域判别信息的提示其可以减轻来自与域无关知识的干扰。 该论文以关系抽取RE任务为例详细描述了BayesPrompt的应用。首先将训练样本输入到编码器中以获取其表示ℎ然后构建一个高斯混合模型来对表示分布进行建模并得到输出 Pμ , Pσ  和 Pπ 它们分别表示每个高斯分量的均值向量、协方差矩阵和权重。接着采用SVGD来近似下游域的去偏真实分布。由 Pμ , Pσ  和 Pπ 确定的高斯混合分布作为 SVGD 算法的目标分布训练样本的表示作为 SVGD 的初始粒子集M等于样本的数量。通过迭代更新得到近似于下游域去偏真实分布的结果粒子集。通过从结果粒子集中均匀采样得到潜在知识ω其代表了一个能为PLMs提供去歧义指导的去偏域抽象。因此对于为关系抽取任务构建的提示使用潜在知识ω以及嵌入在关系标签中的语义知识来初始化可学习的连续tokens。为了将初始化的tokens与周围上下文充分关联该论文采用了交叉熵损失进行进一步的优化 理论 回到最初的问题能否用域自适应Domain Adaptation解决提示学习问题 该论文提供了Prompt-Tuning与Domain Adaptation之间区别与联系的理论见解 1. Prompt-Tuning与Domain Adaptation之间的区别 Domain Adaptation是指从源数据分布中学习一个在不同但相关目标数据分布上表现良好的模型。然而这个目的与BayesPrompt的目的存在差距。BayesPrompt的方法旨在拟合少样本域的分布但并没有对齐目标少样本域和PLMs域的分布。这一行为背后的直觉是PLMs域的分布服从高斯分布但少样本域的分布不是高斯分布因此任意地对齐分布以微调PLMs会降低其捕获判别性信息的能力。 2. Domain Adaptation中关于共享标签空间的理论假设是否适用于Prompt-Tuning 在Prompt-Tuning场景中下游域可以被视为目标域PLMs域的特定子集可以被视为源域即在PLMs域的特定子集与下游域之间进行域分布对齐二者具有共享标签。然而下游域可以由离散数据界定而PLMs域的特定子集可能无法确定因此无法直接利用传统的Domain Adaptation方法来实现BayesPrompt的目标。 那么BayesPrompt在理论上是否有效该论文定义X表示从下游数据集所对应分布P(X)中独立同分布采样出的随机变量其通过预训练语言模型f(∙)获得潜在特征Z。在域分布的视角上该论文假设存在两个域用DPLM表示包含在PLM中的信息所对应的域DDS表示下游数据集所对应的域。因此在少样本推理上提示PLMs的任务可在形式上被转换为通过利用一个学得好的提示隐式地使下游域DDS适应PLMs域DPLM的特定子集ḊPLM。根据PLMs的传统推理设置该论文假设PLMs域的特定子集ḊPLM和下游域DDS共享一个标签函数:Z→YY表示相应的标签。此外论文定义为表示一组预测函数的假设空间且∀h∈h∶Z→Y。因此在PLMs域的特定子集ḊPLM所对应的分布和下游域DDS所对应的分布上假设空间中的一个假设h与标签函数之间的差异可以分别由以下公式度量 进而得出以下命题 该论文将提示PLMs的操作原理视为隐式Domain Adaptation因此所提出的方法遵循命题C.1中的原则。 由于目标下游域DDS(Z)的完整分布可以被分为多个组成分布根据命题C.1中的三角不等式条件这一行为理论上可以通过以下推论得到验证 根据推论C.2通过在训练过程中连接候选分布得到PLMs域的特定子集与下游域所对应的分布差异 的上界 。 下面通过进一步的理论验证证明与基准方法相比BayesPrompt在PLMs的下游推理上获得了更紧致的分类误差上界 基于定理C.3可以得出最小化所使用的损失函数可以隐式地减小分布差异即 从而收紧上的分类误差上界。 实验 实验结果表明了BayesPrompt的有效性。在少样本学习设置中该论文执行了1-shot、5-shot和16-shot的实验以评估BayesPrompt在低资源场景下的有效性。表1中报告了不同方法在不同基准数据集上的F1值和标准差。结果表明平均而言在基准数据集中BayesPrompt比KnowPrompt高出了3.24%比RetrievalRE高出了1.29%。 表1 少样本数据集设置下的实验结果 表2 全量数据集设置下的实验结果 在全量数据集设置下进行的实验进一步表明与KnowPrompt相比BayesPrompt的平均性能提升了0.4%而与RetrievalRE相比提升了0.2%这进一步突显了BayesPrompt的优势。 图3 消融实验结果 对于去偏真实分布的近似该论文综合考虑了高斯分布和高斯混合模型作为候选的已知分布。图3中左图的实验结果表明采用高斯混合模型的方法实现了相对可观和有效的性能。右图展示了判别性提示的效果。具体而言在TACRED数据集上的1-shot设置中当移除判别性提示时性能从22.5%下降到20.2%这表明了判别性提示对少样本推理是有效的。 往期精彩文章推荐 记得关注我们呀每天都有新知识  关于AI TIME  AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。 迄今为止AI TIME已经邀请了1700多位海内外讲者举办了逾600场活动超700万人次观看。 我知道你 在看 哦 ~ 点击 阅读原文 查看更多
http://www.zqtcl.cn/news/15783/

相关文章:

  • 河北省建设工程质量监督网站如何设置目录在wordpress
  • 昆明网站建设公司猫咪科技新手怎么在义乌拿货
  • 好用的h5网站模板下载网址查询注册信息查询
  • 百度搜索网站怎么做网页游戏人气排行榜
  • 学校网站建设开发商博客论坛网站开发
  • 做网站运用的软件建设营销型网站的原因
  • 手机咋建网站手机网页尺寸
  • win系统做网站设计工作网站
  • 做网站哪个公司最专业的餐饮加盟网站建设
  • 建网站要多少钱 优帮云球形网架结构厂家
  • 建程网会员网站关键词优化到首页后怎么做
  • 鹤壁做网站价格做网站设计的有些什么职位
  • 商丘网站建设价格天安云谷网站建设
  • 肇庆网站建设cz0758国外做免费的视频网站
  • 怎嘛做网站山东定制版网站建设公司
  • 建立网站的正确方法视屏网站的审核是怎么做的
  • 织梦框架做网站简单手机网站翻页底时自动链接
  • 专门做恐怖的网站泉州seo培训
  • 建设工程+质量+协会网站网站300m是什么意思
  • 做设计必须知道的几个网站吗斗鱼类的直播网站开发
  • 建网站需要多少钱选苏州聚尚网络oa软件有哪些
  • 网站设计作品案例讲解郑州网络营销排名
  • 免费php mysql网站wordpress 获取分类文章列表
  • 深圳网站制作长沙wordpress 不能发送邮件
  • 微企点自助建站系统wordpress主题 直接拖拽式建站
  • ps做网站首页步骤国内新闻50条简短
  • 个人博客网站的建设结构图廊坊短视频优化案例
  • 响应式网站注意事项徐州梦网科技做网站怎么样
  • 太原网站优化教程交友系统网站建设
  • logo网站设计图片电子商务营销名词解释