网站建设设计合同书,做美食类网站分析,上海专业做网站公司有哪些,国内国际时事写实记录50字配图片在过去几年中#xff0c;深度学习改变了整个人工智能的发展。深度学习技术已经开始在医疗保健#xff0c;金融#xff0c;人力资源#xff0c;零售#xff0c;地震检测和自动驾驶汽车等领域的应用程序中出现。至于现有的成果表现也一直在稳步提高。
在学术层面#xff0…在过去几年中深度学习改变了整个人工智能的发展。深度学习技术已经开始在医疗保健金融人力资源零售地震检测和自动驾驶汽车等领域的应用程序中出现。至于现有的成果表现也一直在稳步提高。
在学术层面机器学习领域已经变得非常重要了以至于每20分钟就会出现一篇新的科学文章。
在本文中我将介绍2018年深度学习的一些主要进展与2017年深度学习进展版本一样我没有办法进行详尽的审查。我只想分享一些给我留下最深刻印象的领域成就。
语言模型Google的BERT
在自然语言处理NLP中语言模型是可以估计一组语言单元通常是单词序列的概率分布的模型。在该领域有很多有趣的模型因为它们可以以很低的成本构建并且显着改进了几个NLP任务例如机器翻译语音识别和内容解析。
历史上最著名的方法之一是基于马尔可夫模型和n-gram。随着深度学习的出现出现了基于长短期记忆网络LSTM更强大的模型。虽然高效但现有模型通常是单向的这意味着只有单词的上下文才会被考虑。
去年10月Google AI语言团队发表了一篇引起社区轰动的论文。BERT是一种新的双向语言模型它已经实现了11项复杂NLP任务的最新结果包括情感分析、问答和复述检测。 预训练BERT的策略不同于传统的从左到右或从右到左的选项。新颖性包括
· 随机屏蔽一定比例的输入词然后预测那些被屏蔽的词;这可以在多层次的背景下保持间接“看到自己”的词语。
· 构建二元分类任务以预测句子B之后是否紧跟句子A这允许模型确定句子之间的关系这种现象不是由经典语言建模直接捕获的。
至于实施Google AI开源了他们的论文代码该代码基于TensorFlow。其中一些在PyTorch也能实现例如Thomas Wolf和Junseong Kim的实现。
BERT对业务应用程序的影响很大因为这种改进会影响NLP的各个方面。这可以在机器翻译聊天机器人行为自动电子邮件响应和客户审查分析中获得更准确的结果。
视频到视频合成
我们通常习惯由图形引擎创建的模拟器和视频游戏进行环境交互。虽然令人印象深刻但经典方法的成本很高因为必须精心指定场景几何、材料、照明和其他参数。一个很好的问题是是否可以使用例如深度学习技术自动构建这些环境。
在他们的视频到视频合成论文中NVIDIA的研究人员解决了这个问题。他们的目标是在源视频和输出视频之间提供映射功能精确描绘输入内容。作者将其建模为分布匹配问题其目标是使自动创建视频的条件分布尽可能接近实际视频的条件分布。为实现这一目标他们建立了一个基于生成对抗网络GAN的模型。在GAN框架内的关键思想是生成器试图产生真实的合成数据使得鉴别器无法区分真实数据和合成数据。他们定义了一个时空学习目标旨在实现暂时连贯的视频。
结果非常惊人如下面的图片所示 输入视频位于左上象限它是来自Cityscapes数据集的街道场景视频的分段图。作者将他们的结果右下与两个基线进行比较pix2pixHD右上和COVST左下。
这种方法甚至可以用于执行未来的视频预测。由于NVIDIA开源vid2vid代码基于PyTorch你可以尝试执行它。
改进词嵌入
去年我写了关于字嵌入在NLP中的重要性并且相信这是一个在不久的将来会得到更多关注的研究课题。任何使用过词嵌入的人都知道一旦通过组合性检查的兴奋即King-ManWomanQueen已经过去因为在实践中仍有一些限制。也许最重要的是对多义不敏感无法表征词之间确切建立的关系。到底同义词Hyperonyms另一个限制涉及形态关系词嵌入模型通常无法确定诸如驾驶员和驾驶之类的单词在形态上是相关的。
在题为“深度语境化词语表示”被认为是NAACL 2018年的优秀论文的论文中来自艾伦人工智能研究所和Paul G. Allen计算机科学与工程学院的研究人员提出了一种新的深层语境化词汇表示方法。同时模拟单词使用的复杂特征例如语法和语义以及这些用途如何在语言环境即多义词中变化。
他们的提议的中心主题称为语言模型嵌入ELMo是使用它的整个上下文或整个句子来对每个单词进行矢量化。为了实现这一目标作者使用了深度双向语言模型biLM该模型在大量文本上进行了预训练。另外由于表示基于字符因此可以捕获单词之间的形态句法关系。因此当处理训练中未见的单词即词汇外单词时该模型表现得相当好。 作者表明通过简单地将ELMo添加到现有的最先进解决方案中结果可以显著改善难以处理的NLK任务例如文本解释共指解析和问答与Google的BERT表示一样ELMo是该领域的重要贡献也有望对业务应用程序产生重大影响。
视觉任务空间结构的建模
视觉任务是否相关这是斯坦福大学和加州大学伯克利分校的研究人员在题为“TaskonomyDisentangling Task Transfer Learning”的论文中提出的问题该论文获得了2018年CVPR的最佳论文奖。
可以合理地认为某些视觉任务之间存在某种联系。例如知道表面法线可以帮助估计图像的深度。在这种情况下迁移学习技术-或重用监督学习结果的可能性将极大的提高。
作者提出了一种计算方法通过在26个常见的视觉任务中找到转移学习依赖关系来对该结构进行建模包括对象识别、边缘检测和深度估计。输出是用于任务转移学习的计算分类图。 上图显示了计算分类法任务发现的示例任务结构。在该示例中该方法告知我们如果组合了表面法线估计器和遮挡边缘检测器的学习特征则可以用很少的标记数据快速训练用于重新整形和点匹配的模型。
减少对标签数据的需求是这项工作的主要关注点之一。作者表明可以通过粗略地减小求解一组10个任务所需的标记的数据点的总数2/3具有独立训练相比同时保持几乎相同的性能。这是对实际用例的重要发现因此有望对业务应用程序产生重大影响。
微调通用语言模型以进行文本分类
深度学习模型为NLP领域做出了重大贡献为一些常见任务提供了最先进的结果。但是模型通常从头开始训练这需要大量数据并且需要相当长的时间。
Howard和Ruder提出了一种归纳迁移学习方法称为通用语言模型微调ULMFiT。主要思想是微调预训练的语言模型以使其适应特定的NLP任务。这是一种精明的方法使我们能够处理我们没有大量数据的特定任务。 他们的方法优于六个文本分类任务的最新结果将错误率降低了18-24。关于训练数据的数量结果也非常惊人只有100个标记样本和50K未标记样本该方法实现了与10K标记样本从头开始训练的模型相同的性能。
同样这些结果证明迁移学习是该领域的关键概念。你可以在这里查看他们的代码和预训练模型。
最后的想法
与去年的情况一样2018年深度学习技术的使用持续增加。特别是今年的特点是迁移学习技术越来越受到关注。从战略角度来看这可能是我认为今年最好的结果我希望这种趋势在将来可以继续下去。
我在这篇文章中没有探讨的其他一些进展同样引人注目。例如强化学习的进步例如能够击败Dota 2的职业玩家的惊人的OpenAI Five机器人。另外我认为现在球CNN特别有效的分析球面图像以及PatternNet和PatternAttribution这两种技术所面临的神经网络的一个主要缺点解释深层网络的能力。
上述所有技术发展对业务应用程序的影响是巨大的因为它们影响了NLP和计算机视觉的许多领域。我们可能会在机器翻译、医疗诊断、聊天机器人、仓库库存管理、自动电子邮件响应、面部识别和客户审查分析等方面观察到改进的结果。
从科学的角度来看我喜欢Gary Marcus撰写的深度学习评论。他清楚地指出了当前深度学习方法的局限性并表明如果深度学习方法得到其他学科和技术的见解如认知和发展心理学、符号操作和混合建模的补充人工智能领域将获得相当大的收益。无论你是否同意他我认为值得阅读他的论文。 原文链接 本文为云栖社区原创内容未经允许不得转载。