中交建设招标有限公司网站,电商平台是干什么的,成都个人网站制作公司,岳阳seo招聘来源#xff1a;towardsml机器学习算法被认为能够通过学习数据来弄清楚如何执行重要任务。这意味着数据量越大#xff0c;这些算法就可以解决更加复杂的问题。然而#xff0c;开发成功的机器学习应用程序需要一定的“民间技巧”#xff0c;这在教科书或机器学习入门课程中很… 来源towardsml机器学习算法被认为能够通过学习数据来弄清楚如何执行重要任务。这意味着数据量越大这些算法就可以解决更加复杂的问题。然而开发成功的机器学习应用程序需要一定的“民间技巧”这在教科书或机器学习入门课程中很难找到。Pedro Domingos教授的一篇很好的研究论文该论文汇集了机器学习研究人员和从业者的经验教训。https://homes.cs.washington.edu/~pedrod/要避免的陷阱要关注的重要问题以及一些常见问题的答案。准备好去了解了吗?1.学习表示评估优化你有一个应用程序你认为机器学习可能是一个很好的选择。现在在机器学习领域每年都会有大量的机器学习算法可供选择有数百种机器学习算法问世。应该使用哪一个?在这个巨大的空间中不迷失的关键是要明白所有机器学习算法的都由三个核心要素组成表示输入数据即要使用的特征学习器和分类器必须以计算机可以理解的语言表示。学习器可以学习的分类器集称为学习器的假设空间。如果分类器不在假设空间中则无法进行学习。澄清说明分类器与学习器的含义是什么?假设你有训练数据并使用你构建另一个程序(模型)的程序处理这些数据例如决策树。学习器是从输入数据构建决策树模型的程序而决策树模型是分类器(能够为每个输入数据实例提供预测输出的东西)。评估需要评估函数来区分好的分类和坏的分类。算法内部使用的评估函数可能与我们希望分类器优化的外部评估度量不同(为了便于优化并且与后面讨论的问题有关)优化最后我们需要一种方法来在分类器中进行搜索以便我们可以选择最佳的分类器。学习器效率的关键是选择优化技术。通常从使用现成的优化器开始。如果需要以后你可以用自己的设计替换它们。下表显示了这三个组件中每个组件的一些常见示例。2.泛化才有用机器学习的基本目标是概括超出训练集中的例子。因为无论我们拥有多少数据我们都不太可能在测试时再次看到这些确切的示例。在训练集上做得很好很容易。初学者中最常见的错误是测试训练数据并得到成功的假象。如果所选分类器随后在新数据上进行测试则通常不会比随机猜测更好。因此从一开始就设置一些数据并且仅使用它来测试最终选择的分类器然后在整个数据上学习最终分类器。当然保留数据会减少可用于训练的样本数。这可以通过交叉验证来缓解比如将你的训练数据随机分成十个子集在训练其余部分时保持每个子集在其未使用的示例上测试每个学习的分类器并对结果求平均值来看特定参数设置的效果如何。3.只有数据还不够当泛化是目标时我们会遇到另一个主要后果仅凭数据是不够的无论你拥有多少数据。假设我们想学习一百万个例子中100个变量的布尔函数(0/1分类)。这意味着2 ^100-10^6个例子你不知道它们的类。如果手头没有更多信息这怎么能优于随机猜测呢?似乎我们陷入了困境。幸运的是我们想要在现实世界中学习的特性并不是从所有数学上可能的函数集中统一绘制的!实际上非常一般的假设——就像具有相似类的类似示例——是机器学习如此成功的一个重要原因。这意味着专业知识和对数据的理解对于做出正确的假设非常重要。对学习知识的需求应该不足为奇。机器学习并不神奇它无法从无到有。它的作用是从更少的东西中获得更多。与所有工程一样编程需要做很多工作我们必须从头开始构建所有东西。学习更像是农业让大自然完成大部分工作。农民将种子与营养物质结合起来种植农作物。学习者将知识与数据相结合以优化程序。4.过拟合的多面性过度拟合的问题是机器学习的问题。当你的学习器输出一个对训练数据100%准确但对测试数据只有50%准确的分类器时实际上它可以输出一个对两者都准确度为75%的分类器它已经过拟合。机器学习中的每个人都知道过拟合但它有多种形式并不是很明显。理解过拟合的方法之一是将泛化误差分解为偏差和方差。偏差是学习者一直学习同样错误的倾向。与真实信号无关方差是学习随机事物的倾向。飞镖图比可以更好地理解这一点如下图所示例如线性学习器具有较高的偏差因为当两个类之间的划分不是明确的超平面时学习器无法正确地判别关系。决策树没有这个问题因为它们的学习方法很灵活。但另一方面它们可能有高度差异——在同一任务的不同训练数据集上学习的决策树通常是非常不同的而实际上它们应该是相同的。现在如何处理过拟合?可以在此处使用交叉验证例如通过使用它来选择要学习的决策树的最佳大小。但请注意这里还有一个问题如果我们使用它来选择太多参数它本身就会开始过拟合我们又回到了同样的陷阱。除了交叉验证之外还有许多方法可以处理过拟合。最受欢迎的是在评估函数中添加正则化项。另一个选择是执行卡方等统计显著性检验以分析添加更多复杂性是否会对类分布产生任何影响。这里的一个重点是没有特定的技术“解决”过拟合问题。例如我们可以通过陷入欠拟合(偏差)的相反误差来避免过度拟合(方差)。同时避免两者都需要学习一个完美的分类器并没有一种技术总能做到最好(没有免费的午餐)。5.高维中的直觉失效过拟合后机器学习中最大的问题是维数的诅咒。这个表达式意味着当输入是高维的时许多在低维度下工作正常的算法变得难以处理。由于固定大小的训练集覆盖了输入空间的一小部分(可能的组合变得巨大)因此随着示例的维度(即特征的数量)的增长正确泛化的难度呈指数级增加。但这就是为什么机器学习既有必要又有难度。正如你在下图所示即使我们从1维过渡到3维能够分辨出不同示例的工作似乎开始变得越来越难——在高维度上所有示例都开始相似。这里的一般问题是我们来自三维世界的直觉使我们在高维度上失败。例如高维度橙色的大部分体积都在外部而不是内部!令人难以置信的是如果恒定数量的示例在高维超立方体中均匀分布并且如果我们通过将其刻在超立方体中来近似超球面则在高维度中超立方体的几乎所有体积都在超球面之外。这是个坏消息。因为在机器学习中一种类型的形状通常由另一种形状近似。澄清注意如果你对所有“夸大其词”感到困惑超立方体内部的超球面看起来像是这样的二维和三维因此你现在可以理解构建2维或3维分类器很容易但在高维度上很难理解发生了什么。反过来这使得设计好的分类器变得困难。事实上我们经常陷入这样的陷阱认为获取更多特征不会带来负面影响因为在最坏的情况下它们不会提供关于类的新信息。但事实上维度的诅咒可能会超过它们的好处。启示下次当你考虑添加更多特征时请考虑当你的维度变得太大时可能出现的潜在问题。6.特征工程是关键当一天结束时所有机器学习项目中有成功的也有失败的。它们之间有区别呢?这个不难想到最重要的因素就是使用的特征。如果有许多独立的特征并且每个特征都与类的相关性很好那么机器学习就很容易。相反如果类是需要通过复杂方式处理特征后才能被使用那么事情就变难了这也就是特征工程——根据现在输入的特征创建新的特征。通常原始数据格式基本不能为建模所用。但你可以从中构建可用于学习的特征。事实上这是机器学习项目中的最花精力的部分。但这也是最有趣的部分之一在这里直觉、创造力和“小技巧”与技术是同样重要的东西。经常会有初学者惊讶一个机器学习项目中花费在训练上的时间竟如此之少。但是如果考虑收集数据整合数据清理数据并对其进行预处理的时间以及在特征选择上的试错次数这个时间就相对合理。更何况机器学习在构建数据集和运行学习样例上不是一次性的过程而是一个迭代的过程需要运行学习样例分析结果修改数据或学习样例以及重复上述过程。训练往往是最快的部分但那是因为我们对这部分相当熟练!特征工程很难因为它是专业领域的不过学习器在很大程度上是通用的。当然机器学习界的梦想之一就是提高特征工程的自动化程度。7.丰富的数据胜过聪明的算法假设你已经构建了一组最好的特征但是你得到的分类器仍然不够准确。你现在还可以做什么?有两个主流的办法设计更好的机器学习算法或者是收集更多数据(更多样例可能还有更多原始特征)。机器学习研究人员会去改进算法但在现实中通往成功的最快途径往往是获取更多数据。根据经验具有大量数据的傻瓜算法胜过一个具有适度数量的聪明算法。在计算机科学中通常情况下两个主要的资源限制是时间和内存。但在机器学习中还有第三个约束训练数据。在这三个中今天的主要瓶颈是时间因为有大量的可用数据但没有足够的时间来处理它们所以数据被闲置了。这意味着在实践中更简单的分类器会胜出因为复杂的分类器需要很长的学习时间。使用更聪明的算法并不会给出更好的结果部分原因是在一天中它们都在做同样的事情将所有学习样例基本上都是通过将相邻的样例分组到同一个类来工作的。关键的区别在于对“相邻”的定义。当我们有非均匀分布的数据时即使复杂的学习样例也可以产生非常不同的边界来对结果进行分类最终它们仍然在重要区域做出相同的预测(具有大量训练样例的区域因此也可能出现大多数文本样例)。正如下图所示无论是花式曲线直线还是逐步边界我们都可以得到相同的预测通常首先尝试最简单的学习器(例如逻辑回归前的朴素贝叶斯支持向量机之前的邻近算法)。复杂的学习器很吸引人但它们通常很难使用因为它们需要控制更多的旋钮以获得好的结果并且因为它们的内部更像是黑箱。8.组合多个模型而非只用一个在机器学习的早期阶段努力尝试使用多种学习器的各种变形并选择最好的那个。但是研究人员发现如果不是选择其中最好的单一模型而是结合各种变形会得到更好的结果建模者只需稍加努力就可以获得显著提升的效果。现在建这种模型融合非常普遍在最简单的技术称为bagging算法我们使用相同的算法但在原始数据的不同子集上进行训练。最后我们取均值或通过某种投票机制将它们组合起来。Boosting算法中学习器按顺序逐一训练。随后的每一个都将其大部分注意力集中在前一个错误预测的数据点上。我们会一直训练到对结果感到满意为止。Stacking算法中不同独立分类器的输出成为新分类器的输入该分类器给出最终预测。在Netflix算法大赛中来自世界各地的团队竞相建立最佳的视频推荐系统。随着比赛的进行发现将学习器与其他团队相结合可以获得了最佳成绩并且合并为越来越大的团队。获胜者和亚军都是超过100个学习器的叠加集成两个集成的结合进一步改善了结果。算法组合将更好!9.理论保证和实际具有差异机器学习论文充满理论保证。我们应该对这些保证做些什么?归纳法传统上与演绎法形成对比在演绎法中你可以保证结论是正确的在归纳法中就很难说。最近几十年的一个重要进展是我们认识到可以做归纳结果正确性的保证前提是如果我们愿意接受概率保证。例如我们可以保证给定一个足够大的训练集在很大的概率上学习器会返回一个成功泛化的假设或无法找到一个保持正确的假设。另一种常见的理论保证是给定无穷的数据学习器可以保证输出正确的分类器。在实践中由于我们之前讨论过的偏置-方差的权衡如果在无穷数据情况下学习器A比学习器B好那么在有限数据的情况下B通常比A好。理论保证在机器学习中的主要作用不是作为实际决策的标准而是作为理解算法设计的起点。10.简单并不意味着准确在机器学习中奥卡姆剃刀原理通常被认为是给定两个具有相同训练误差的分类器两者中较简单的可能具有较低的测试误差。但事实并非如此我们之前看到了一个反例即使在训练误差达到零之后通过添加分类器一个boosted ensemble的泛化误差也会继续改善。与直觉相反模型的参数数量与过拟合之间没有必要的联系。也就是说在机器学习中一个更简单的假设仍然应该是首选因为简单本身就是一种优势而不是因为它意味着准确性。11.可表示不等于可学习仅仅因为可以表示函数并不意味着可以学习它。例如标准决策树学习器无法学习叶子多于训练样例的树木。给定有限的数据、时间和内存标准学习器只能学习所有可能功能的一小部分并且这些子集对于不同表示的学习器是不同的。因此这里的关键是尝试不同的学习器(并可能将它们结合起来)是值得的。12.相关性不意味着因果性我们都听说过相关性并不意味着因果性但仍然有人常常倾向于认为相关性意味着因果关系。通常学习预测模型的目标是将它们用作行动指南。如果我们发现用户在超市经常买了啤酒就会买尿不湿那么也许把啤酒放在尿不湿部分旁边会增加销量。但除非我们进行真实的实验否则很难判断这是否属实。相关性标志着一个潜在的因果关系我们可以将其作为进一步研究的方向而非我们的最终结论。结论跟其他学科一样机器学习有很多“民间智慧”很难获得但对成功至关重要。感谢Domingos教授今天给我们传授了一些智慧。希望这个攻略对你有帮助。可以在下面评论区留言说出你的想法哦未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”