当前位置: 首页 > news >正文

做网站需要购买地域名吗德宏网站建设公司

做网站需要购买地域名吗,德宏网站建设公司,百度贴吧网页入口,别人做的网站自己想更新来源#xff1a;机器学习研究组订阅深度学习和简单的统计学是一回事吗#xff1f;很多人可能都有这个疑问#xff0c;毕竟二者连术语都有很多相似的地方。在这篇文章中#xff0c;理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异机器学习研究组订阅深度学习和简单的统计学是一回事吗很多人可能都有这个疑问毕竟二者连术语都有很多相似的地方。在这篇文章中理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异认为“如果纯粹从统计学角度认识深度学习就会忽略其成功的关键因素”。图源https://twitter.com/YiMaTweets/status/1553913464183091200深度学习或一般的机器学习经常被认为是简单的统计学即它与统计学家研究的基本是相同的概念但是使用与统计学不同的术语来描述。Rob Tibshirani 曾总结了下面这个有趣的“词汇表”表中的某些内容是不是很能引起共鸣事实上所有从事机器学习的人都清楚Tibshiriani 发布的这张表中右侧的许多术语在机器学习中已被广泛使用。如果纯粹从统计学角度认识深度学习就会忽略其成功的关键因素。对深度学习更恰当的评价是它使用统计学术语来描述完全不同的概念。对深度学习的恰当评价不是它用不同的词来描述旧的统计术语而是它用这些术语来描述完全不同的过程本文会解释为什么深度学习的基础其实不同于统计学甚至不同于经典的机器学习。本文首先讨论模型拟合数据时的「解释explanation」任务和「预测prediction」任务之间的差异。接着讨论学习过程的两个场景1. 使用经验风险最小化拟合统计模型; 2. 向学生传授数学技能。然后文章又讨论了哪一个场景更接近深度学习的本质。虽然深度学习的数学和代码与拟合统计模型几乎相同。但在更深层次上深度学习更像是向学生传授数学技能这种场景。而且应该很少有人敢宣称我掌握了完整的深度学习理论其实是否存在这样的理论也是存疑的。相反深度学习的不同方面最好从不同的角度来理解而仅仅从统计角度无法提供完整的蓝图。本文对比了深度学习和统计学这里的统计学特指的是“经典统计学”因为它被研究得最久并且在教科书中经久不衰。许多统计学家正在研究深度学习和非经典理论方法就像 20 世纪物理学家需要扩展经典物理学的框架一样。事实上模糊计算机科学家和统计学家之间的界限对双方都是有利的。一、预测与模型拟合一直以来科学家们都是将模型计算结果与实际观测结果进行比较以验证模型的准确性。埃及天文学家托勒密提出了关于行星运动的巧妙模型。托勒密的模型遵循地心说但有一系列的本轮见下图使其具有极好的预测准确性。相比之下哥白尼最初的日心说模型比托勒密模型简单但在预测观察结果方面不太准确。哥白尼后来添加了自己的本轮以便能够与托勒密的模型媲美。托勒密和哥白尼的模型都是无与伦比的。如果我们想通过 “黑盒” 进行预测那么托勒密的地心模型更胜一筹。但如果你想要一个简单的模型以便可以“观察模型内部”这是解释恒星运动理论的起点那么哥白尼的模型是不二选择。后来开普勒将哥白尼的模型改进为椭圆轨道并提出了开普勒行星运动三定律这使得牛顿能够用适用于地球的引力定律来解释行星规律。因此重要的是日心说模型不只是一个提供预测的“黑盒”而是由几个简单的数学方程给出的但是方程中的 “运动部分” 极少。多年来天文学一直是发展统计技术的灵感来源。高斯和勒让德分别独立地在 1800 年左右发明了最小二乘回归以预测小行星和其他天体的轨道。1847 年柯西发明了梯度下降法这也是由天文预测推动的。在物理学中有时学者们可以掌握全部细节从而找到 “正确” 的理论把预测准确性做到最优并且对数据做出最好的解释。这些都在奥卡姆剃刀之类的观点范畴内可以认为是假设简单性、预测能力和解释性都相互和谐一致的。然而在许多其它领域解释和预测这两个目标之间的关系却没有那么和谐。如果只想预测观察结果通过 “黑盒” 可能是最好的。另一方面如果想获得解释性的信息如因果模型、通用原则或重要特征那么可以理解和解释的模型可能越简单越好。模型的正确选择与否取决于其用途。例如考虑一个包含许多个体的遗传表达和表型例如某些疾病的数据集如果目标是预测一个人生病的几率那么无论它有多复杂或依赖于多少个基因都要使用适配该任务的最佳预测模型。相反如果目的是识别一些基因以便进行进一步研究那么一个复杂的非常精确的 “黑盒” 的用处是有限的。统计学家 Leo Breiman 在 2001 年关于统计建模的两种文化的著名文章中阐述了这一点。第一种是“数据建模文化”侧重于能解释数据的简单生成模型。第二种是“算法建模文化”对数据的生成方式不可知侧重于寻找能够预测数据的模型无论其多么复杂。文章链接https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.fullBreiman 认为统计学过于受第一种文化的支配这种关注造成两种问题导致了不相关的理论和可疑的科学结论。阻止了统计学家研究令人兴奋的新问题。Breiman 的论文一出就引起了一些争议。同为统计学家的 Brad Efron 回应说虽然他同意一些观点但他也强调Breiman 的论点似乎是反对节俭和科学见解支持花大力气制造复杂的“黑盒”。但在最近的一篇文章中Efron 摒弃了之前的观点承认 Breima 更有先见之明因为“21 世纪统计学的焦点都聚焦在预测算法上在很大程度上沿着 Breiman 提出的路线演进”。二、经典和现代预测模型机器学习无论是不是深度学习都沿着 Breiman 的第二种观点演进即以预测为重点。这种文化有着悠久的历史。例如Duda 和 Hart 在 1973 年出版的教科书和 Highleyman 1962 年的论文就写到了下图中的内容这对于今天的深度学习研究者来说是非常容易理解的Duda 和 Hart 的教科书《Pattern classification and scene analysis》和 Highleyman 1962 年的论文《The Design and Analysis of Pattern Recognition Experiments》中的片段类似地下图中的 Highleyman 的手写字符数据集和用于拟合它的架构 Chow1962准确率约为 58%也会引起很多人的共鸣。三、为什么深度学习与众不同 1992 年Geman、Bienenstock 和 Doursat 写了一篇关于神经网络的悲观文章认为 “当前的前馈神经网络在很大程度上不足以解决机器感知和机器学习中的难题”。具体来说他们认为通用神经网络在处理困难任务方面不会成功而它们成功的唯一途径是通过人工设计的特征。用他们的话说“重要属性必须是内置的或“硬连接的”…… 而不是以任何统计意义上的方式学习。” 现在看来 Geman 等人完全错了但更有意思的是了解他们为什么错了。深度学习确实不同于其它学习方法。虽然深度学习似乎只是预测就像最近邻或随机森林一样但它可能有更多的复杂参数。这看起来似乎只是量的差异而不是质的差异。但在物理学中一旦尺度变化了几个数量级通常就需要完全不同的理论深度学习也是如此。深度学习与经典模型参数化或非参数化的基础过程完全不同虽然它们的数学方程和 Python 代码在更高层次上来看是相同的。为了说明这一点下面考虑两个不同的场景拟合统计模型和向学生教授数学。场景 A拟合一个统计模型通过数据去拟合一个统计模型的典型步骤如下1.这里有一些数据(是的矩阵是维向量即类别标签。把数据认为是来自某个有结构且包含噪声的模型就是要去拟合的模型)2.使用上面的数据拟合一个模型并用优化算法来最小化经验风险。就是说通过优化算法找到这样的使得最小代表损失表明预测值有多接近真实值是可选的正则化项。3. 模型的总体损失越小越好即泛化误差的值相对最小。Effron 从包含噪声的观测中恢复牛顿第一定律的展示图这个非常通用的范例其实包含许多内容如最小二乘线性回归、最近邻、神经网络训练等等。在经典统计场景中我们通常会碰到下面的情况权衡假设是经过优化的模型集合(如果函数是非凸的或包含正则化项精心选择算法和正则化可得到模型集。的偏差是元素所能达到的最接近真值的近似值。集合越大偏差越小并且可能为 0(如果)。然而越大需要缩小其成员范围的样本越多因此算法输出模型的方差越大。总体泛化误差是偏差和方差的总和。因此统计学习通常是 Bias-Variance 权衡正确的模型复杂度是将总体误差降至最低。事实上Geman 等人证明了其对神经网络的悲观态度他们认为Bias-Variance 困境造成的基本限制适用于所有非参数推理模型包括神经网络。“多多益善”并不总是成立在统计学习中更多的特征或数据并不一定会提高性能。例如从包含许多不相关特征的数据中学习是很难的。类似地从混合模型中学习其中数据来自两个分布中的一个如和比独立学习每个分布更难。收益递减在很多情况中将预测噪声降低到水平所需的数据点数量与参数和是有关的即数据点数量约等于。在这种情况下需要大约 k 个样本才能启动但一旦这样做就面临着回报递减的情况即如果需要个点才能达到 90% 的准确率则需要大约额外的个点来将准确率提高到 95%。一般来说随着资源增加无论是数据、模型复杂度还是计算人们希望获得越来越精细的区分而不是解锁特定的新功能。对损失、数据的严重依赖性当将模型拟合到高维数据时任何小细节都可能会产生很大的差异。L1 或 L2 正则化器等选择很重要更不用说使用完全不同的数据集。不同数量的高维优化器相互之间也非常不同。数据是相对 “单纯” 的通常会假设数据是独立于某些分布进行采样的。虽然靠近决策边界的点很难分类但考虑到高维度上测量集中现象可以认为大多数点的距离都是相近的。因此在经典的数据分布中数据点间的距离差异是不大的。然而混合模型可以显示这种差异因此与上述其他问题不同这种差异在统计中很常见。场景 B学习数学在这个场景中我们假设你想通过一些说明和练习来教学生数学如计算导数。这个场景虽然没有正式定义但有一些定性特征学习一项技能而不是去近似一个统计分布在这种情况下学生学习的是一种技能而不是某个量的估计 / 预测。具体来说即使将练习映射到解的函数不能被用作解决某些未知任务的“黑盒”但学生在解决这些问题时形成的思维模式仍然对未知任务是有用的。多多益善一般来说做题越多、题型涉猎越广的学生表现越好。同时做一些微积分题和代数题不会导致学生的微积分成绩下降相反可能帮助其微积分成绩提升。从提升能力到自动化表示虽然在某些情况下解决问题的回报也会递减但学生的学习会经历几个阶段。有一个阶段解决一些问题有助于理解概念并解锁新的能力。此外当学生重复某一特定类型的问题时他们见到同类问题就会形成自动化的解题流程从之前的能力提升转变为自动化解题。表现独立于数据和损失教授数学概念的方法不止一种。使用不同书、教育方法或评分系统学习的学生最终可以学习到相同的内容以及相似的数学能力。有些问题更困难在数学练习中我们经常看到不同学生解决同一问题的方式之间存在着很强的相关性。对于一个问题来说似乎确实存在一个固有的难度水平以及一个对学习最有利的自然难度递进。四、深度学习更像是统计估计还是学生学习技能上面两个场景的比喻中哪一个用来描述现代深度学习更恰当具体来说它成功的原因是什么统计模型拟合可以很好地使用数学和代码来表达。实际上规范的 Pytorch 训练循环通过经验风险最小化训练深度网络在更深的层次上这两种场景之间的关系并不清楚。为了更具体这里以一个特定的学习任务为例。考虑使用 “自监督学习 线性探测” 方法训练的分类算法。具体算法训练如下1. 假设数据是一个序列其中是某个数据点比如一张图片是标签。2. 首先得到表示函数的深度神经网络。通过最小化某种类型的自监督损失函数仅使用数据点而不使用标签来训练该函数。这种损失函数的例子是重建用其它输入恢复输入或对比学习核心思想是正样本和负样本在特征空间对比学习样本的特征表示。3. 使用完整的标记数据拟合线性分类器是类数以最小化交叉熵损失。我们的最终分类器是:步骤 3 仅适用于线性分类器因此 “魔术” 发生在步骤 2 中深度网络的自监督学习。在自监督学习中有些重要属性学习一项技能而不是去近似一个函数自监督学习不是逼近函数而是学习可用于各种下游任务的表示(这是自然语言处理的主导范式)。通过线性探测、微调或激励获得下游任务是次要的。多多益善在自监督学习中表示质量随着数据量的增加而提高不会因为混合了几个来源的数据而变糟。事实上数据越多样化越好。Google PaLM 模型的数据集解锁新能力随着资源数据、计算、模型大小投入的增加深度学习模型也在不连续地改进。在一些组合环境中也证明了这一点。随着模型规模的增加PaLM 在基准测试中显示出不连续的改进并且解锁令人惊讶的功能比如解释笑话为什么好笑性能几乎与损失或数据无关存在多个自监督损失图像研究中其实使用了多种对比和重建损失语言模型使用单边重建预测下一个 token或使用 mask 模型预测来自左右 token 的 mask 输入。也可以使用稍微不同的数据集。这些可能会影响效率但只要做出 “合理” 的选择通常原始资源比使用的特定损失或数据集更能提升预测性能。有些情况比其他情况更困难这一点并不特定于自监督学习。数据点似乎有一些固有的 “难度级别”。事实上不同的学习算法具有不同的“技能水平”不同的数据 dian 具有不同的” 难度水平“分类器正确分类点的概率随的技能而单调提升随难度单调降低。“技能与难度skill vs. difficulty”范式是对 Recht 等人和 Miller 等人发现的 “accuracy on the line” 现象的最清晰解释。Kaplen、Ghosh、Garg 和 Nakkiran 的论文还展示了数据集中的不同输入如何具有固有的“难度剖面”对于不同的模型族该剖面通常是稳健的。CIFAR-10 上训练并在 CINIC-10 上测试的分类器的 accuracy on the line 现象。图源https://millerjohnp-linearfits-app-app-ryiwcq.streamlitapp.com/顶部的图描述了最可能类别的不同 softmax 概率作为某个类别分类器的全局精度的函数该类别由训练时间索引。底部的饼图显示了不同数据集分解为不同类型的点(注意这种分解对于不同的神经结构是相似的)。训练就是教学现代大模型的训练似乎更像是教学生而不是让模型拟合数据当学生不懂或感到疲倦时就 “休息” 或尝试不同的方法训练差异。Meta 的大模型训练日志很有启发性——除了硬件问题外我们还可以看到干预措施例如在训练过程中切换不同的优化算法甚至考虑 “hot swapping” 激活函数GELU to RELU。如果将模型训练视为拟合数据而不是学习表示则后者没有多大意义。Meta 训练日志摘录4.1但是监督学习怎样呢前面讨论了自监督学习但深度学习的典型例子仍然是监督学习。毕竟深度学习的 “ImageNet 时刻” 来自 ImageNet。那么上面所讨论的是否仍然适用于这个设定首先有监督的大规模深度学习的出现在某种程度上是个偶然这得益于大型高质量标记数据集即 ImageNet的可用性。如果你想象力丰富可以想象另一种历史即深度学习首先开始通过无监督学习在自然语言处理方面取得突破性进展然后才转移到视觉和监督学习中。其次有证据表明尽管使用完全不同的损失函数但监督学习和自监督学习在”内部“的行为其实是相似的。两者通常都能达到相同的性能。具体地对于每一个人们可以将通过自监督训练的深度为 d 的模型的前 k 层与监督模型的最后 d-k 层合在一起而性能损失很小。SimCLR v2 论文的表格。请注意监督学习、微调100%自监督和自监督 线性探测之间在性能上的一般相似性图源https://arxiv.org/abs/2006.10029拼接自监督模型和 Bansal 等人的监督模型https://arxiv.org/abs/2106.07682。左如果自监督模型的准确率比如比监督模型低 3%则当层的 p 部分来自自监督模型时完全兼容的表示将导致拼接惩罚为 p 3%。如果模型完全不兼容那么我们预计随着合并更多模型准确率会急剧下降。右合并不同自监督模型的实际结果。自监督 简单模型的优势在于它们可以将特征学习或 “深度学习魔法”由深度表示函数完成与统计模型拟合由线性或其他“简单” 分类器在此表示之上完成分离。最后虽然这更像是一种推测但事实上 “元学习” 似乎往往等同于学习表征参见https://arxiv.org/abs/1909.09157https://arxiv.org/abs/2206.03271 这可以被视为另一个证据证明这在很大程度上是在进行的而不管模型优化的目标是什么。4.2过度参数化怎么办本文跳过了被认为是统计学习模型和深度学习在实践中存在差异的典型例子缺乏 “Bias-Variance 权衡” 以及过度参数化模型的良好泛化能力。为什么要跳过有两个原因首先如果监督学习确实等于自监督 简单学习那么这可能解释了它的泛化能力。其次过度参数化并不是深度学习成功的关键。深度网络之所以特别并不是因为它们与样本数量相比大而是因为它们在绝对值上大。事实上通常在无监督 / 自监督学习中模型不会过度参数化。即使对于非常大的语言模型它们的数据集也更大。Nakkiran-Neyshabur-Sadghi“deep bootstrap”论文表明现代架构在 “过度参数化” 或“欠采样”状态下表现类似模型在有限数据上训练多个 epoch直到过度拟合上图中的 “Real World”在“欠参数化” 或者 “在线” 状态下也是如此模型训练单个 epoch每个样本只看一次上图中的 “Ideal World”。图源https://arxiv.org/abs/2010.08127总结统计学习当然在深度学习中发挥着作用。然而尽管使用了相似的术语和代码但将深度学习视为简单地拟合一个比经典模型具有更多参数的模型会忽略很多对其成功至关重要的东西。教学生数学的比喻也不是完美的。与生物进化一样尽管深度学习包含许多复用的规则如经验损失的梯度下降但它会产生高度复杂的结果。似乎在不同的时间网络的不同组件会学习不同的东西包括表示学习、预测拟合、隐式正则化和纯噪声等。研究人员仍在寻找合适的视角提出有关深度学习的问题更不用说回答这些问题。原文链接https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/ 未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.zqtcl.cn/news/264651/

相关文章:

  • 佛山做外贸网站方案自助网站推广系统
  • 安徽鸿顺鑫城建设集团网站小区物业管理网站开发报告
  • 有关网站建设文章常熟做网站多少钱
  • 网站流量报表江苏住房和城乡建设厅网站
  • 提供做网站公司有哪些个人建网站的费用
  • 网站后台添加表格wordpress垂直分页导航插件
  • 重庆网站建设有限公司六安市裕安区建设局网站
  • 北京产品网站建设如何做移动支付网站
  • 做同城购物网站赚钱吗设计企业网站流程
  • 网站要用什么软件做建设工程施工合同专属管辖
  • 模板网站建设制作佛山正规网站建设哪家好
  • 飞虎队网站建设网络公司起名大全
  • 如何发布自己的网站视频8首页制作代码
  • 网站开发实用案例教程普陀网站制作
  • 建一个网站需要哪些知识招远网站建设
  • 文章标题-栏目名称-网站名 dede环保网站设计建设论文
  • centos wordpress建站北京专门做网站的
  • wordpress网站的彻底清理百度网站联系方式
  • 网站建设签收单网页制作模板的作用
  • 已购买域名 如何做网站网络规划设计师通过率多少
  • 酒店网站建设需求分析wordpress iis
  • 烟台网站建设服务新钥匙网站建设
  • 帝国cms网站地图生成器行业网站建设哪家专业
  • 免费推广网站大全wordpress更改图片大小
  • 中航建设集团网站vps网站无法通过ip访问
  • 学生求职网站的需求分析怎么做江西手机版建站系统开发
  • 电商网站开发文献综述嵌入式软件开发项目
  • 网站备案怎样提交管局网站建设基本步骤
  • 国外优秀电商设计网站开发网站公司推荐
  • 国外企业网站建设模型网站建设谈客户说什么