当前位置: 首页 > news >正文

网站突然打不开了苏州网站建设 网络推广公司

网站突然打不开了,苏州网站建设 网络推广公司,阳西县网络问政平台公众号,做会计需要了解的网站及软件在这篇文章中#xff0c;我们从三个角度回顾了神经网络的统计理论文献。在第一部分中#xff0c;我们回顾了非参数框架下关于神经网络的过度风险#xff08;excess risks#xff09;的研究成果#xff0c;这些成果适用于回归或分类。这些结果依赖于神经网络的显式构造我们从三个角度回顾了神经网络的统计理论文献。在第一部分中我们回顾了非参数框架下关于神经网络的过度风险excess risks的研究成果这些成果适用于回归或分类。这些结果依赖于神经网络的显式构造采用了近似理论的工具导致过度风险的收敛速度较快。通过这些构造可以根据样本大小、数据维度和函数平滑度来表达网络的宽度和深度。然而它们的底层分析仅适用于深度神经网络高度非凸景观中的全局最小值。这促使我们在第二部分回顾神经网络的训练动力学。具体来说我们回顾了试图回答“通过基于梯度的方法训练的神经网络如何找到能够在未见数据上泛化良好的解决方案”的论文。特别地我们回顾了两种众所周知的范式神经切线核Neural Tangent KernelNTK范式和平均场Mean-FieldMF范式。 在最后一部分中我们回顾了生成模型的最新理论进展包括生成对抗网络Generative Adversarial NetworksGANs、扩散模型以及大型语言模型Large Language ModelsLLMs中的上下文学习in-context learningICL。前两种模型被认为是现代生成人工智能时代的主要支柱而ICL是LLMs在上下文中通过少数示例学习的强大能力。最后我们通过提出几个深度学习理论的有前景的方向来结束这篇文章。 https://www.zhuanzhi.ai/paper/723a8b685e08dae08fe25cd03917454a 1 引言  近年来作为机器学习的一个子领域深度学习 [Goodfellow et al., 2016] 领域经历了重大的发展。它的影响已经超越了传统界限在诸如医疗保健 [Esteva et al., 2019]、金融 [Heaton et al., 2017]、自主系统 [Grigorescu et al., 2020] 和自然语言处理 [Otter et al., 2020] 等行业中取得了显著进展。神经网络我们大脑的数学抽象是这一进步的核心。然而在人工智能的持续复兴中神经网络获得了几乎是神话般的地位传播了它们更像艺术而非科学的误解。驱散这种观念是重要的。虽然神经网络的应用可能令人敬畏但它们坚实地植根于数学原理中。在这种背景下深度学习理论的重要性变得显而易见。几个关键点强调了其重要性。 1.1 为什么理论很重要 在这一小节中我们旨在强调在数学和统计框架内理解深度学习的重要性。以下是一些需要考虑的关键点 深度学习是一个动态且快速发展的领域在线上产生了成千上万的出版物。当今的模型特点是高度复杂的网络架构包含许多复杂的子组件。在这种复杂性中理解这些模型背后的基本原则变得至关重要。为了实现这种理解将这些模型置于统一的数学框架中是必不可少的。这样的框架是一个宝贵的工具可以从这些复杂模型中提取核心概念使我们能够提取和理解推动其功能的关键原则。 将统计框架应用于深度学习模型允许与其他统计方法进行有意义的比较。例如像小波或核方法这样广泛使用的统计估计器可以引发关于深度神经网络何时何故可能表现更好的问题。这种分析帮助我们理解深度学习相比传统统计方法何时表现出色从而使理论和实践受益。 超参数如学习率、权重初始化、网络架构选择、激活函数和批量大小显著影响估计模型的质量。理解这些超参数的适当范围对于理论家和实践者都是必要的。例如在大数据时代当一个数据集中有数百万个样本时理论智慧告诉我们网络的深度应该在样本大小的对数中进行缩放以便良好地估计组合函数 [Schmidt-Hieber, 2020]。 在这篇综述中我们提供了深入这些概念的论文概述并在精确的数学设置中为读者提供了上述话题的具体见解。在这里我们试图避免过多的技术性内容并使介绍尽可能对各个领域的统计学家都易于理解。 1.2 论文概览  我们将神经网络的统计理论现有文献分类为三类。 近似理论视角。最近出现了大量工作这些工作将神经网络模型的近似理论 [Yarotsky, 2017, Mhaskar, 1996, Petersen and Voigtlaender, 2018, Schmidt-Hieber, 2020, Montanelli and Du, 2019, Blanchard and Bennouna, 2022, Hornik et al., 1989, Hanin, 2019] 与实证过程中的工具 [Van de Geer, 2000] 结合起来以获得在非参数设置下回归 [Schmidt-Hieber, 2020, Hu et al., 2021] 和分类 [Hu et al., 2020, Kim et al., 2021] 任务中过度风险的快速收敛率。近似理论在测量神经网络在某些类别中近似函数的基本复杂性方面提供了有用的视角。具体来说它使得神经网络的显式构造成为可能以便我们知道为了获得良好的收敛率网络的宽度、深度和活跃参数的数量应该如何根据样本大小、数据维度和函数平滑度指标来缩放。为了简单起见我们主要考虑将全连接神经网络用作函数估计器的工作。这些工作包括 Schmidt-Hieber [2020], Kim et al. [2021], Shen et al. [2021], Jiao et al. [2021], Lu et al. [2021], Imaizumi and Fukumizu [2019, 2022], Suzuki [2018], Chen et al. [2019b], Suzuki and Nitanda [2021], Suh et al. [2022] 等在不同的问题设置下进行研究。然而这些工作假设损失函数的全局最小值是可获得的并且主要关注这些最小值的统计属性而不考虑任何优化问题。但鉴于损失函数的非凸性以及隐藏层中激活函数的非线性这是一个强假设。 训练动力学视角。在这个背景下理解神经网络模型的非凸损失函数景观及其对神经网络泛化能力的影响成为文献中的下一个步骤。例如一个开创性的实证发现 [Zhang et al., 2021] 揭示了通过随机梯度下降训练的足够过参数化的神经网络模型可以完美拟合嘈杂的数据甚至随机噪声但同时它们仍然可以很好地泛化。在许多关于过参数化的重要发现中如 Arora et al. [2019b], Jacot et al. [2018] 揭示通过梯度下降GD在 ℓ2-损失下训练的足够宽度的深度神经网络的动力学表现与在再生核希尔伯特空间RKHS中的函数类似其中的核与特定网络架构相关联。许多后续工作研究了在内核范式下神经网络的训练动力学和泛化能力 [Suh et al., 2021, Hu et al., 2021, Nitanda and Suzuki, 2020]。尽管如此神经网络表现出的不仅仅是内核回归例如特征学习 [Yang and Hu, 2020]。这种能力是通过允许网络参数显著偏离其初始值来实现的这是内核范式所不允许的。许多研究者试图填补这一差距 [Ghorbani et al., 2020b, Wei et al., 2019]证明了神经网络相对于内核范式网络的统计优势但仍然限制了网络参数可能的可行距离。另一重要的研究方向试图解释神经网络在不同范式下的学习动力学被称为平均场MF范式。在这个范式下网络参数有显著偏离其初始值的灵活性尽管这需要无限的宽度。最后我们通过介绍一个统一的框架 Yang and Hu [2020] 来结束这一部分该框架使我们全面理解基于梯度的方法中权重初始化和学习率缩放的选择如何影响神经网络在其无限宽度极限下的动力学。 生成模型。在这一部分中我们回顾了最新的生成模型理论进展包括生成对抗网络GANs扩散模型以及大型语言模型LLMs中的上下文内学习。在过去的十年中GANs [Goodfellow et al., 2014] 作为一种显著的无监督学习方法脱颖而出以其学习数据分布和高效采样数据的能力而闻名。在这篇综述中我们将介绍研究GANs统计属性的论文 [Arora et al., 2017, Liang, 2021, Chen et al., 2020a, Bai et al., 2018, Zhang et al., 2017, Schreuder et al., 2021]。最近另一组生成模型即扩散模型在生成各种数据模态的高质量合成数据方面表现出色包括图像 [Song et al., 2020, Dhariwal and Nichol, 2021]表格数据 [Kim et al., 2022, Suh et al., 2023]医学成像 [M¨uller-Franzes et al., 2022] 等大幅度超过基于GAN的模型。然而鉴于模型的复杂性和它在社区中的最近引入为什么它表现如此出色的理论原因仍然不明确。最后我们将回顾在大型语言模型中观察到的一个有趣现象即上下文内学习ICL。它指的是LLMs在输入-输出对的任务示例输入-输出对和新查询输入的提示序列条件下可以准确地生成相应的输出。读者可以参考 Gui et al. [2021], Yang et al. [2022] 的综述论文了解GANs和扩散模型在各个领域的方法论和应用的详细描述。关于ICL的概述请参阅 Dong et al. [2022] 的综述其中突出了这个方向的一些关键发现和进展。  1.3 深度学习理论现有综述  据我们所知目前有三篇关于深度学习理论的综述论文 [Bartlett et al., 2021; Fan et al., 2021; Belkin, 2021]。这些论文在某些主题上存在重叠但它们的主要焦点各不相同。Bartlett et al. [2021] 提供了一个全面而技术性的综述专注于深度神经网络的统计理解。特别是作者着重考察了神经网络中超参数化的显著影响这在使基于梯度的方法发现插值解方面起着关键作用。这些方法引入了隐式正则化如Neyshabur [2017]讨论的或导致了一种称为良性过拟合的现象 Bartlett et al. [2020]。Fan et al. [2021] 介绍了实践中最常用的神经网络架构如卷积神经网络CNN、循环神经网络RNN以及从统计角度出发的训练技术如批量标准化、dropout等。同时也简要介绍了神经网络的近似理论。 与Bartlett et al. [2021]类似Belkin [2021] 回顾了超参数化在隐式正则化和良性过拟合方面的作用这不仅观察于神经网络模型也观察于经典的统计模型如加权最近邻预测器。最值得注意的是他们通过优化的视角提供了对神经网络非凸损失景观的超参数化角色的直观理解。
http://www.zqtcl.cn/news/646619/

相关文章:

  • 能看建设动漫黄图的网站海外仓一件代发平台
  • 做网站都需要了解什么大连福佳新城2026年建站吗
  • php 网站部署到服务器泉州模板建站哪家好
  • 网站服务器上的跳转选择怎么做网站是怎么建立的
  • 网站后台目录如何保护公司网站建设需要要求什么软件
  • 四川省建设厅网站官网自己做的网站能上传到凡科吗
  • 米拓网站建设-app定制开发免费个人建站系统
  • 网站改版公司如何帮公司做网站
  • 曹县汽车网站建设网站怎么做才 吸引人
  • 河南周口东宇网站建设wordpress怎么重新安装插件
  • wordpress无法上传主题南通做网站优化公司
  • 做彩票网站能挣到钱吗南充市房产信息网
  • 沧州北京网站建设金华网站建设哪个公司好点
  • 北京朝阳建站优化wordpress主题访问慢
  • wordpress最快仿站酷炫个人特别网站
  • 公司建站详细步骤如何注册一家公司要多少钱
  • 网站推广网络营销山西大学物理电子工程学院研招网
  • 亚马逊做国际外贸在哪个网站毕业设计网站开发选题依据
  • 镇江网站排名优化费用app软件开发平台游戏
  • 襄阳网站建设xytzg南通网站建设top
  • 有没有做产品团购的网站2d动画制作软件
  • 成都网站排名生客seo杭州专业网站制作设计
  • 阿里云 企业 网站四平市网站建设
  • 政务门户网站建设信息奇人网站
  • 打开网站弹出广告代码如何建设网站方便后期维护
  • 海淀网站建设龙岩做网站用什么cms 知乎
  • 网站托管费用多少免费一卡二卡三
  • 长沙做网站品牌中信建设官网站首页
  • 网站空白页黑链聊城网站建设代理商
  • 微信上打开连接的网站怎么做在网上可以做宣传的有那些网站