当前位置：首页 > news >正文

鹰潭城乡建设局的网站网站首页新世纪建设集团有限公司

news 2025/11/20 15:33:02

鹰潭城乡建设局的网站,网站首页新世纪建设集团有限公司,seo关键词优化推广,怎么样才能创建自己的网站人工智能领域的发展离不开学者们的贡献#xff0c;然而随着研究的进步#xff0c;越来越多的论文出现了「标题党」、「占坑」、「注水」等现象#xff0c;暴增的顶会论文接收数量似乎并没有带来更多技术突破。最近#xff0c;来自卡耐基梅隆大学的助理教授 Zachary C. Lipt… 人工智能领域的发展离不开学者们的贡献然而随着研究的进步越来越多的论文出现了「标题党」、「占坑」、「注水」等现象暴增的顶会论文接收数量似乎并没有带来更多技术突破。最近来自卡耐基梅隆大学的助理教授 Zachary C. Lipton 与斯坦福大学博士 Jacob Steinhardt 提交了一篇文章《Troubling Trends in Machine Learning Scholarship》细数了近年来机器学习研究的几大「怪现状」。本文将在 7 月 15 日 ICML 2018 大会上的「Machine Learning: The Debates」研讨会上接受讨论。1 引言总体来说机器学习ML的研究人员正在致力于数据驱动算法知识的创建与传播。在一篇论文中提到研究人员迫切地想实现下列目标的任一个理论性阐述可学习内容、深入理解经验严谨的实验或者构建一个有高预测精度的工作系统。虽然确定哪些知识值得探究是很主观的但一旦主题确定当论文为读者服务时它对社区最有价值它能创造基础知识并尽可能清楚地进行阐述。什么样的论文更适合读者呢我们可以列出如下特征这些论文应该i提供直观感受以帮助读者理解但应明确区别于已证明的强有力结论;ii阐述考量和排除其他假设的实证调查 [62];iii明确理论分析与直觉或经验之间的关系 [64];iv利用语言帮助读者理解选择术语以避免误解或未经证实的内容避免与其他定义冲突或与其他相关但不同的概念混淆 [56]。尽管经常偏离这些理想条件但机器学习近期仍然在持续进步。在本文中我们关注以下四种模式在我们看来这些模式是机器学习领域当下研究的倾向1. 无法区分客观阐述和猜想。2. 无法确定达到好效果的来源例如当实际上是因为对超参数微调而获得好效果的时候却强调不必要修改神经网络结构。3. 数学性使用令人混淆的数学术语而不加以澄清例如混淆技术与非技术概念。4. 语言误用例如使用带有口语的艺术术语或者过多的使用既定的技术术语。虽然这些模式背后的原因无法确定但很可能包括社区大幅扩张导致审查人员数量不足以及学术和短期成功衡量标准如文献数量、关注度、创业机会之间经常出现的错位激励。虽然每种模式都提供了相应的补救措施呼吁「不要这样做」我们还是想讨论一些关于社区如何应对此类趋势的探索性建议。随着机器学习的影响扩大研究此类论文的人员越来越多包括学生、记者和决策者这些考量也适用于更广泛的读者群体。我们希望通过更清晰精准的沟通加速研究步伐减少新晋研究人员的入门时间在公共讨论中发挥建设性的作用。有缺陷的学术研究可能会误导大众、阻碍未来研究、损害机器学习知识基础。事实上在人工智能的历史上甚至更广泛的科学研究中很多问题都是循环往复的。1976 年Drew McDermott [53] 就批判 AI 社区放弃了自律并预言「如果我们不能批评自己就会有别人来帮我们解决问题」。类似的讨论在在 80 年代、90 年代和 00 年代反复出现 [13,38,2]。在心理学等领域糟糕的实验标准削弱了人们对该学科权威的信任 [14]。当今机器学习的强劲潮流归功于迄今为止大量严谨的研究包括理论研究 [22,7,19] 和实证研究 [34,25,5]。通过加强更明了的科学思考和交流我们才可以维持社区目前所拥有的信任和投资。2. 免责声明本文旨在激发讨论响应 ICML 机器学习辩论研讨会关于论文的号召。虽然我们支持这里的观点但我们并不是要提供一个完整或平衡的观点也不是要讨论机器学习这一科学领域的整体质量。在复现性等许多方面社区的先进标准远远超过了十年前的水平。我们注意到这些争论是我们自己发起的攻击的也是我们自身关键的自省都是我们自己人做出的而不是来自局外人的攻击。我们发现的这些弊病不是某个人或某个机构独有的。我们已经身处这种模式之中将来还会重蹈覆辙。揭示其中一种模式不会让一篇论文变差或谴责论文的作者但是我们相信揭示这种模式之后所有论文都会因避开这种模式而得到质量的提高。我们给出的具体例子将涉及i我们自身及ii那些我们仰慕的著名研究者或机构不会挑选那些容易受到本文严重影响的年轻学者或没有机会与我们平等对话的研究者。身处这样一个可以自由获取知识、表达观点的社区我们感到非常欣慰。3 不良趋势在下面的每个小节中我们 (i) 首先描述一个趋势(ii) 然后提供几个例子包括抵制这一趋势的正面例子最后解释该趋势带来的后果。指出个别论文的弱点可能是一个敏感的话题。为了尽量减少这种情况我们选择了简短而具体例子。3.1 解释与推测对新领域的研究往往涉及基于直觉的探索这些直觉尚未融合成清晰的表达形式。于是推测成为作者表达直觉的一种手段但是这种直觉可能还无法承受科学审查的所有压力。然而论文常以解释为名行推测之实然后由于科学论文的伪装和作者假定的专业知识这些推测被解释为权威。例如[33] 围绕一个内部协变量转移的概念形成了一个直观的理论。关于内部协变量转移的论述从摘要开始似乎陈述了技术事实。然而关键术语不够清晰最终无法得出一个真实值。例如论文指出通过减少训练过程中隐激活层分布的变化批处理规范化可以获得改进。这种变化是用哪种散度衡量的论文中没有阐明并且有些研究表明这种对批处理规范化的解释可能偏离了 [65] 的标准。然而[33] 中给出的推测性解释已经被重复为一种事实例如 [60] 中说「众所周知由于内部协变量转移问题深层神经网络很难优化。」我们也同样对伪装成推测的解释感到不安。在 [72] 中JS 写道「无关特征的高维性和丰富性……给了攻击者更多的空间来攻击」而没有进行任何实验来衡量维度对攻击性的影响。在 [71] 中JS 引入了直观的覆盖概念但没有对其进行定义并将其当做一种解释来运用如「缺少覆盖的一个表现是不确定性估计较差无法生成高精度的预测。」回顾过去我们希望交流不够具体化的直觉这些直觉对论文中的研究很重要我们不愿把论点的核心部分看作推论。与上述例子相反[69] 把推测与事实区分开来。这篇论文介绍了 dropout 正则化详细推测了 dropout 和有性繁殖之间的联系但「Motivation」一节明确地隔开了这一讨论。这种做法避免了混淆读者同时允许作者表达非正式的想法。在另一正面例子中[3] 提出了训练神经网络的实用指南。在这篇论文中作者谨慎地表达了不确定性。该论文没有把这些指南当成权威性的东西而是这样表达「虽然这些建议……来自多年的实验和一定程度的数学证明但它们应该受到挑战。这是一个良好的起点……但没有得到什么正式验证留下许多问题可以通过理论分析或扎实的比较实验工作来回答」。3.2 未能确定经验成果的来源机器学习同行评审过程重视技术创新。也许是为了让审稿人满意许多论文强调了复杂的模型这里提到的和奇特的数学表达式见 3.3。虽然复杂的模型有时是合理的但经验上的进步往往通过其它方式实现巧妙的问题公式、科学实验、优化算法、数据预处理技术、广泛的超参数调整或者将现有方法应用于有趣的新任务。有时把提出的很多技术相结合可以获得显著的经验结果。在这些情况下作者有责任向读者阐明实现文中的成果需要哪些技术。但很多时候作者提出了许多缺乏适当变化的控制变量研究掩盖了经验成果的来源。实际上有时改善结果的原因只有一个变化而已。这会给人一种错误的印象认为作者做了更多的工作通过提出几项改进而实际上他们做得并不够没有进行适当的变量控制。此外这种做法会使读者误以为提出的所有改变都是必要的。最近Melis et al.[54] 阐明很多已发表的改进技术实际上要归功于超参数的调节而这原本被认为是在神经网络中进行复杂创新的功劳。与此同时自 1997 年以来几乎没有修改过的经典 LSTM 排名第一。如果早点知道关于超参数调节的真相而没有受到其它干扰AI 社区可能受益更多。深度强化学习 [ 30 ] 和生成对抗网络 [ 51 ] 也遇到了类似的评估问题。更多关于经验严谨性失误及其后果的讨论详见 [ 68 ]。相比之下许多论文对 [ 41,45,77,82 ] 进行了很好的控制变量分析甚至追溯性地尝试隔绝成果来源也可能导致新的发现 [ 10,65 ]。此外控制变量对于理解一种方法来说既不是必要的也不是充分的甚至在给定计算约束的情况下也是不切实际的。可以通过鲁棒性检查如 [15]它发现现有的语言模型处理屈折形态的效果很差以及定性错误分析 [40] 来理解方法。旨在理解的实证研究甚至在没有新算法的情况下也能起到启发作用。例如探究神经网络的行为可以识别它们对对抗干扰的易感性 [ 74 ]。细致的研究还经常揭示挑战数据集的局限性同时产生更强的基线。[ 11 ] 研究了一项旨在阅读理解新闻段落的任务发现 73 % 的问题可以通过看一个句子来回答而只有 2 % 的问题需要看多个句子剩下 25 % 的例子要么模棱两可要么包含共指错误。此外更简单的神经网络和线性分类器的性能优于此前在这项任务中评估过的复杂神经结构。本着同样的精神[ 80 ] 分析并构建了视觉基因组场景图数据集的强基线。3.3 滥用数学在写早期 PhD 论文的时候经验丰富的博士后会给我们ZL一些反馈论文需要更多的方程式。博士后并没有认可我们提出的系统但是传达出一种审议研究工作的清晰方式。即使工作很难解释但更多的方程式会令评审者相信论文的技术深度。数学是科学交流的重要工具正确使用时可以传递精确与清晰的思考逻辑。然而并非所有想法与主张都能使用精确的数学进行描述因此自然语言也同样是一种不可或缺的工具尤其是在描述直觉或经验性声明时。当数学声明和自然语言表述混合在一起而没有明确它们之间的关系时观点和理论都会受到影响理论中的问题用模糊的定义来覆盖而观点的弱论据可以通过技术深度的出现而得到支持。我们将这种正式和非正式声明之间的纠缠称为「滥用数学mathiness」。经济学家 Paul Romer 描述这种模式为「就像数学理论一样滥用数学将符号和语言的混合但滥用数学不会将两者紧密联系在一起而是在自然语言表述与形式语言表述间留下了充足的空间 [64]。」滥用数学表现在几个方面首先一些论文滥用数学来传递技术的深度他们只是将知识堆砌在一起而不是尝试澄清论点。伪造定理是常见的手法它们常被插入到论文中为实证结果提供权威性即使定理的结论并不支持论文的主要主张。我们JS就犯过这样的错 [70]其中对「staged strong Doeblin chains」的讨论与提出的学习算法只有很少的相关性但可能给读者带来理论的深度感。在 Adam 优化器的原论文 [35] 中这个问题无处不在。在引入具有强大经验性性能的优化器过程中它还提供了凸优化情况下的收敛性证明这对于关注非凸优化的的论文来说不是必要的。这一个证明后来还被指出有错误 [63]并给出了新的证明。第二个问题是既非明确的形式化表述也非明确的非形式化表述。例如在 [18] 中作者表示优化神经网络主干的困难不在极小值点而在鞍点。这项工作引用了一篇关于高斯随机场的统计物理学论文 [9]该论文表示「高斯随机场中所有局部极小值点的误差与全局最小值点误差非常相近」相似的说明在 [12] 中也有提到。这似乎是一个正式的声明但是并没有一个具体的定理也很难验证声明的结果或确定其确切内容。我们可以理解为这个声明表示在问题参数为典型配置时我们不知道是经验性地在数值上极值与最值差距非常小还是理论性地这个差距在高维空间中会慢慢消失。正式声明将有助于澄清这一点我们注意到 [18] 描述了极小值点比鞍点有更低的损失、更清楚的证明与经验性的测试。最后一些论文以过于宽泛的方式引用理论或者引用不是那么相关的定理。例如通常我们引用「没有免费午餐定理」作为使用启发式方法的理由而这种启发式方法通常是没有理论保证的。虽然补救滥用数学最好的方法就是避免它但有一些论文会进一步明确数学与自然语言之间的关系。最近有一篇论文 [8] 描述了反事实推理它以扎实的方式涵盖了大量的数学基础且与很多已应用的经验性问题有非常多的明确联系。此篇教程以明确地方式写给读者并帮助促进新兴社区研究机器学习的反事实推理。3.4 滥用语言我们明确了机器学习中三种滥用语言的方式暗示性定义、技术术语过载和 suitcase words。3.4.1 暗示性定义在第一种方法中新的技术术语创造出来可能就具有暗示性的口语语义因此潜在的含义无需争论。这常常体现在任务的拟人化特征音乐合成 [59] 和阅读理解 [31]、技术的拟人化特征好奇 [66] 和害怕 [48]。很多论文以暗示人类认知的方式命名提出模型的组成部分例如「思想向量」[36] 和「意识先验」[4] 等。我们的目的并不是消除所有这类语言的学术文献如果命名比较合适那么它可以传递灵感的来源。然而当暗示性术语指定了技术含义时所有后续论文都别无选择只能接受该术语。使用「人类水平」的松散声明描述经验性结果同样描绘了对当前能力的错误认识。以 [21] 中的「皮肤病专家水平的皮肤癌分类模型」为例与皮肤科医生的对比掩盖了分类器和皮肤科医生执行根本不同任务的事实。真正的皮肤科医生会遇到各种各样的情况并且尽管存在不可预测的变化他们都必须完成工作。但是分类器只在独立同分布的测试数据上实现了较低的误差。相比之下[29] 表明分类器在 ImageNet 图像分类任务上有人类水平的性能更可信因为它并不是说在目标检测等更广泛的领域。即使在这种情况下相比于不那么细致的 [21, 57, 75]一篇更细致的论文可能并不足以使公众讨论重回正轨。流行的文章记叙将现代图像分类器描述为「超越人类水平的性能并有效证明更大的数据集导致更好的决策」[23]。尽管有证据表明这些分类器依赖虚假的相关性即将「穿红衣服的亚洲人」误分类为乒乓球 [73]但人们还是相信它们有超越人类的准确度。深度学习论文并不是唯一遭受影响的领域滥用语言困扰着 ML 非常多的子领域。[49] 中讨论了机器学习公平性的最近文献其发现机器学习从复杂的法律学中借了大量的术语例如使用「disparate impac」命名统计等价概念的简单方程。这导致了文献中的「fairness」、「opportunity」和「discrimination」表示预测性模型的简单统计学特征这样会令忽略其中差异的研究者迷惑也会令政策制定者误解将道德纳入机器学习的难易程度。3.4.2 技术术语过载误用语言的第二个方式包括将具备准确技术含义的术语用作不准确或完全相反的意义。例如解卷积deconvolution它描述了反转卷积的过程但是现在在深度学习文献中该词常用于指自编码器和生成对抗网络中的转置卷积transpose convolution也叫 up-convolution。在深度学习领域中该术语首先出现于 [79]其中它确实是指解卷积但后来被过度一般化指使用 upconvolution 的任意神经架构 [78, 50]。此类术语过载现象会导致持续的混淆。新机器学习论文中的 deconvolution 可能 (i) 指其原始意义(ii) 描述 upconvolution(iii) 尝试解决混淆如 [28]。另一个例子是 generative model生成模型它原本指输入分布 p(x) 或联合分布 p(x,y) 的模型。而 discriminative model判别模型指标签的条件分布 p(y | x)。但是近期的论文中「generative model」不准确地意指生成逼真结构化数据的任意模型。表面看来这似乎与 p(x) 的定义一致但它混淆了几个缺陷例如GAN 或 VAE 无法执行条件推断如从 p(x2 | x1) 中采样x1 和 x2 是两个不同的输入特征。后来这个术语被进一步混淆现在一些判别模型discriminative model指生成结构化输出的生成模型 [76]我们在 [47] 中犯了这个错误。为了解决该混淆并提供历史背景[58] 对规定的和隐性的生成模型进行了区分。再来看批归一化batch normalization[33] 描述协变量偏移covariate shift为模型输入分布的变化。而事实上协变量偏移指一种特定类型的偏移尽管输入分布 p(x) 可能确实出现变化但标注函数 p(y|x) 没有变化 [27]。此外由于 [33] 的影响Google Scholar 将 batch normalization 列为搜索「covariate shift」的第一个参考文献就是 batch normalization《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。语言误用的后果之一是我们可能通过将之前的未解决任务重新定义来掩盖没有进展的事实。这通常与通过拟人化命名进行的暗示性定义有关。语言理解language understanding和阅读理解reading comprehension曾经是 AI 的两大挑战而现在指在特定数据集上的准确预测 [31]。最后我们讨论机器学习论文中「suitcase words」的过度使用。这个词由 Minsky 在 2007 年的书《The Emotion Machine》中创造suitcase words 将多种意义的词「打包」起来。Minsky 描述了心理过程例如意识、思维、注意力、情绪和感觉并认为这些过程可能没有「共同的起因或来源」。很多机器学习中的术语都有这样的现象。例如[46] 注意到可解释性并没有普遍认同的含义通常对应不相交的方法。结果即使在论文的互相交流中人们也可能理解的是不同的概念。另一个例子generalization 有特定的技术含义「泛化」从训练泛化到测试和更加口语化的含义更加接近于迁移的概念从一个总体扩展到另一个总体或外部效度从实验扩展到现实世界。合并这些概念将导致高估当前系统的能力。暗示性的定义和超载的术语也可能创造出新的 suitcase words。在研究公平性的文献中法律、哲学和统计学语言通常都过载像 bias 这样的变成 suitcase words 的术语在之后必须要分离。在通用语和鼓舞人心的术语中suitcase words 可以很有用。也许 suitcase words 反映了一个至关重要的联合不同含义的概念。例如人工智能一词也许能打包成一个鼓舞人心的名词来组织一个学术部门。另一方面在技术观点中使用 suitcase words 可能导致困惑。例如[6] 写了一个涉及智能和优化能力的等式Box 4隐含地假设这些 suitcase words 可以用一个 1 维标量量化。4. 对趋势背后原因的思考以上模式预示着某种趋势吗如果答案是肯定的其背后的原因又是什么我们推测这些模式将愈演愈烈其背后的原因可能有以下几点面对进步的自满社区的急剧扩张相关审议团队的匮乏扭曲的激励机制与评价成果的短期标准。4.1 面对进步的自满机器学习的快速发展有时会导致这样一种态度只要结果足够有力论点站不住脚也没有关系。取得有力结果的作者可能感觉自己有权插入可以导出结果的任意未经证实的东西见 3.1省略掉可能弄清楚这些因素的实验见 3.2采用夸张的术语见 3.4或滥用数学见 3.3。同时评价过程的单轮属性可能让评阅人感觉自己不得不接受具有有力结果的定量研究论文。实际上即使论文被拒其中的弱点可能也不会在下一轮中得到修补甚至根本不会被注意到因此评阅人最终可能会认为接受一篇有瑕疵的论文是最好的选择。4.2 成长的痛苦大约在 2012 年左右由于深度学习方法的成功机器学习社区急剧扩张。尽管我们将社区的扩张视为一种积极的发展但这一扩张也有其弊端。为了保护年轻的研究者们我们优先选用自己和那些著名学者的论文。然而新加入的研究者可能更容易受到这些模式的不良影响。例如不了解既有术语的作者更容易用错或乱用论文语言见 3.4。另一方面资深研究者可能也会陷入这些模式。社区的急剧扩张还会从两个方面稀释评论一是提高提交论文与评阅人的比例二是降低资深评阅人的比例。经验不足的评阅人可能对架构新奇性的要求更高也更容易被伪造的定理所迷惑并忽略严重而微妙的问题如误用语言从而加快上述几种趋势的发展。同时资深但负担过重的评阅人可能陷入「清单核对」的心理定势更加青睐公式化的论文忽略更富有创意或思路更宽但不符合既有模板的论文。此外工作量超负荷的评阅人可能没有足够的时间来修补或注意到论文中的所有问题。4.3 扭曲的激励机制给作者以不良激励的不止是评阅人。随着机器学习研究越来越受媒体关注机器学习创业公司也越来越普遍在某种程度上这一领域所获得的激励可以说是媒体「他们会写什么」或投资人「他们的钱会投到哪里」给的。媒体煽动了上述趋势的几种。对机器学习算法拟人化的表述为新闻报道提供了素材。以 [55] 为例该文将自动编码称之为「模拟大脑」。暗示机器表现达到人类水平的新闻会在报纸头条上引起轰动如 [52]该文在描述一种深度学习图像字幕系统时称其「模仿人类的理解水平」。投资人对 AI 研究也颇有兴趣有时他们仅依据一篇论文就会为创业公司投资。根据我们ZL与投资人接触的经验他们有时更青睐那些研究成果已经被媒体报道的创业公司这种资本激励最终又归功于媒体。我们注意到最近投资人对智能会话机器人创业公司的兴趣伴随着报纸及其他媒体对对话系统及强化学习者的拟人化描述一起出现尽管很难确定投资者的兴趣和扭曲的激励机制是否构成因果关系。5 建议假设我们要对抗这些趋势该如何做呢除了仅建议每个作者放弃这类模式我们从社区可以做些什么来提高实验实践、阐述和理论水平呢我们如何才能更容易的提炼社区内的知识并消除研究人员和普罗大众的误解呢下面根据我们的个人经历和印象提出一些初步的建议。5.1 对作者的建议我们鼓励作者多问「是什么起了作用」和「为什么」而不是「有多好」除了在特殊情况下的 [39]原始的标题数字对于科学进步的价值是有限的它并没有表述出驱动数据的原因。观察并不意味着理论。在最有力的实证研究论文中有三种实践方式错误分析、控制变量研究和鲁棒性检验例如选择超参数以及理想数据集。这些做法每个人都可以使用我们提倡大家广泛使用。对于一些实例论文我们建议读者参考 §3.2 的内容。[43] 还提供了更详细的最佳经验实践调研。合理的实证研究不应该只局限于追踪特定算法的经验效果即使没有提出新的算法它也可以产生新的见解。这里的例子可以证明通过随机梯度下降训练的神经网络可以适用于随机分配的标签 [81]。这篇论文对模型复杂性的学习理论能力提出质疑试图让其解释为什么神经网络可以泛化到未见过的数据。在另一个例子中[26] 探索了深层网络的损失表面揭示了初始化和学习化参数间的参数空间直线路径通常具有单调递减的损失。在撰写此论文时我们希望能出现以下问题我是要依靠这种解释做出预测还是让系统正常工作这可以很好地检验是否包含这能取悦审核人员或者传递明确信息的定理。它还有助于检查概念和说明是否与我们自己的内心想法相匹配。在数学写作方面我们将建议读者阅读 KnuthLarrabee 和 Roberts 的优秀教程 [37]。最后弄清哪些问题是开放性的哪些问题是可以被解决的。这不仅能够让读者更加清楚还能鼓励后续的工作防止研究人员忽略那些假定错误要被解决的问题。5.2 对出版商和评审人的建议评审人可以通过问这样的问题来明确自己的动机「如果作者的工作做的不够好我是否会接受这篇论文」例如一篇论文描述了一个简单的想法虽然连带了两个负面的结果却能使性能得到改进。这样的文章应该好于将三个想法结合在一起没有控制变量研究产生相同改进的文章。现在的文献以接收有缺陷的会议出版物为代价而迅速发展。补救的措施之一就是强调权威性的回顾调查剔除夸大的声明和无关的材料改变拟人化名称以使记号、术语标准化等。尽管机器学习中的 Foundation 和 Trend 等已经对此类研究进行追踪但我们认为这方面仍然缺乏足够强大的论文。此外我们认为批判性写作应该在机器学习会议上有所发声。典型的 ML 会议论文选择一个已有问题或提出一个新问题展示一个算法和或分析然后报告实验结果。尽管很多问题可以通过这种方式解决但是对于问题或调查方法的正当性算法和实验都不足够和恰当。我们在拥抱更具批判性的论述方面并不孤单在 NLP 领域今年的 COLING 大会号召论文「挑战传统思维」[1]。关于同行评审有很多值得讨论的地方。我们描述的问题通过开放性评审能够得到缓解还是加剧评审人系统与我们提倡的价值观有多大的一致性这些话题已经在其他地方被详细讨论 [42, 44, 24]。6 讨论常理来说我们不应该在技术升温时进行干预你不能质疑成功在此我们用以下一些理由进行反驳首先当前文化的许多方面是机器学习成功的结果而不是其原因。事实上导致目前深度学习成功的许多论文都是仔细的实证研究其描述了深度网络训练的基本原则。这包括随机连续超参数搜索的优势、不同激活函数的行为以及对无监督预训练的理解。其次有缺陷的学术氛围已经对研究界以及更为广泛的公众群体产生了负面影响。在第三章中我们已经看到了不受支持的观点已被人们引用了上千次被称为改进的谱系被简单的基线所推翻数据集旨在测试高级语义推理但实际上测试的是低级语法流畅性术语混乱使得学术对话变得举步维艰。其中最后一个问题也影响着公众的判断。欧洲议会曾通过一份报告讨论如何应对「机器人产生自我意识」的问题。尽管机器学习的研究者们并不向所有这些工作产生的误解负责但权威同行评审论文中的拟人化语言似乎至少负有一定的责任。我们相信解释说明以及科学和理论的严谨性对于科学进步和建立更广泛的公众有效对话至关重要。此外由于机器学习技术将被应用于医疗健康、法律自动驾驶等重要领域对于机器学习系统能力限制的知晓将让我们能够更加安全地部署 AI 技术。我们将通过讨论一些对于上述观点的反驳及历史背景来结束本文。6.1 与之相对的考虑因素针对上述建议也有很多需要考虑的因素。本文草稿的一些读者曾指出随机梯度下降往往比梯度下降的收敛速度更快——换句话说或许更快节奏的、更喧闹的过程让我们抛弃了撰写「更干净」论文的初衷也加快了研究速度。例如关于 ImageNet 数据集图像分类的突破性论文 [39] 提出了多种没有控制变量研究的技术其中一些随后被确定是不必要的。然而在研究提出时其结果非常重要且实验计算成本高昂等待控制变量完成可能不值得整个社区为之付出代价。这让我们担心高标准可能会阻碍创见的发布因为这些创见往往非同寻常而且可能是推测性的。在其他领域如经济学高标准导致学者可能需要数年才能完成一篇论文冗长的修订周期必然会消耗可用于新研究的资源。最后也许专业化有其价值创造新概念或建立新系统的研究者不一定会是那些仔细整理和提炼知识的人。我们认识到这些考虑的有效性并且也认识到这些标准有时过于严格。但是在很多情况下它们很容易实现只需要几天的实验和更仔细的写作。此外我们将这些内容作为强烈的启发而不是不可逾越的规则来呈现——如果不违反这些标准就无法分享新的想法那么我们更愿意分享这个想法而将标准放在一边。此外我们总会发现遵守这些标准的尝试是值得的。总之我们不相信研究界在前沿的推进上实现了帕累托最优状态。6.2 历史经验实际上在这里讨论的问题既不是机器学习所特有的也不是目前这个时代所特有的它们反映了整个学术界反复出现的问题。早在 1964 年物理学家 John R. Platt 在其关于强推理的论文 [62] 中就对于相关问题进行了讨论他在文中指出了对特定先验标准的遵守这也为随后分子生物学和高能物理甚至其他领域的快速发展提供了能量。在 AI 领域里事情也是类似的正如第一章所述Drew McDermott [53] 在 1976 年就一系列问题批评了一个主要是机器学习时代以前的人工智能社区批评内容包括暗示定义以及未能将猜测与技术主张分开。1988 年Paul Cohen 和 Adele Howe [13] 也指责一个人工智能社区「很少发布他们提出的算法的性能评估」而只是描述了系统。他们建议为量化技术发展建立合理的指标并分析「它为什么有效」、「在什么情况下它不起作用」以及「如何让设计决策合理化」……这些问题在今天仍然能引起我们的共鸣。最后在 2009 年Armstrong 等人 [2] 讨论了信息检索研究的实证严谨性并注意到很多论文都有与相同弱基线进行比较的趋势这些改进并没有积累到有意义的经验。在其他领域学术水平不受限制的下降导致了危机。2015 年的一项具有里程碑意义的研究表明心理学文献中很大一部分研究结果可能无法再现 [14]。在一些历史案例中跟风与缺乏规制的学术态度导致整个研究社区走进了死胡同。例如在 X 射线被发现之后有人又提出了 N 射线之后真相被揭穿。6.3 结束语最后读者们可能认为这些问题是可以自我纠正的。我们同意这样的观点但是机器学习社区需要反复讨论如何构建合理的学术标准以实现这种自我修正。我们希望本文能够为这样的讨论提供建设性贡献。原文链接http://approximatelycorrect.com/2018/07/10/troubling-trends-in-machine-learning-scholarship/作者Zachary C. Lipton、Jacob Steinhardt机器之心编译版权归原作者所有转载仅供学习使用不用于任何商业用途如有侵权请留言联系删除感谢合作。数据与算法之美用数据解决不可能长按扫码关注

查看全文

http://www.zqtcl.cn/news/308980/