动漫设计与制作学什么,有利于优化的网站建设,wordpress my visitors 数据备份恢复,wordpress的安装教程自监督学习真的是通往 AGI 的关键一步#xff1f;来源#xff1a;机器之心编辑#xff1a;于腾凯校对#xff1a;龚力Meta 的 AI 首席科学家 Yann LeCun 在谈到「此时此刻要采取的具体措施」时#xff0c;也没有忘记远期的目标。他在一次采访时说#xff1a;「我们想要构…自监督学习真的是通往 AGI 的关键一步来源机器之心编辑于腾凯校对龚力Meta 的 AI 首席科学家 Yann LeCun 在谈到「此时此刻要采取的具体措施」时也没有忘记远期的目标。他在一次采访时说「我们想要构建像动物和人类一样学习的智能机器。」近几年Meta 发表了一系列关于 AI 系统自监督学习SSL的论文。LeCun 坚定地认为SSL 是 AI 系统的必要前提它可以帮助 AI 系统构建世界模型以获得类似人类的能力如理性、常识以及将技能和知识从一个环境迁移到另一个环境的能力。他们的新论文展示了一种被称为掩蔽自编码器MAE的自监督系统如何学会从非常零散、不完整的数据中重建图像、视频甚至音频。虽然 MAE 并不是一个新的想法但 Meta 已经将这项工作扩展到了新的领域。LeCun 说通过研究如何预测丢失的数据无论是静态图像还是视频或音频序列MAE 系统都是在构建一个世界模型。他说「如果它能预测视频中即将发生的事情它必须明白世界是三维的有些物体是无生命的它们自己不会移动其他物体是有生命的很难预测一直到预测有生命的人的复杂行为。」一旦 AI 系统有了一个精确的世界模型它就可以使用这个模型来计划行动。LeCun 说「智能的本质是学会预测。」虽然他并没有声称 Meta 的 MAE 系统接近于通用人工智能但他认为这是通往通用人工智能的重要一步。但并非所有人都同意 Meta 的研究人员走在通往通用人工智能的正确道路上。Yoshua Bengio 有时会与 LeCun 就 AI 领域的重大想法进行友好的辩论。在给 IEEE Spectrum 的一封电子邮件中Bengio 阐述了他们在目标上的一些不同和相似之处。Bengio 写道「我真的不认为我们目前的方法无论是不是自监督足以弥合人工与人类智能水平的差距。」他说该领域需要取得「质的进步」才能真正推动技术向人类规模的人工智能靠拢。对于 LeCun 的「对世界的推理能力是智能的核心要素」这一观点Bengio 表示赞同但他的团队并没有把重点放在能够预测的模型上而是放在了能够以自然语言的形式呈现知识的模型上。他指出这样的模型将允许我们将这些知识片段结合起来以解决新问题进行反事实模拟或研究可能的未来。Bengio 的团队开发了一种新的神经网络框架它比致力于端到端学习的 LeCun 所青睐的框架更具模块化的性质。大火的 TransformerMeta 的 MAE 建立在一种名为 Transformer 的神经网络架构基础之上。这种架构最初在自然语言处理领域走红之后扩展到计算机视觉等多个领域。当然Meta 并不是第一个成功将 Transformer 用到视觉任务中的团队。Meta AI 的研究者 Ross Girshick 介绍说谷歌在视觉 TransformerViT上的研究启发了 Meta 的团队「ViT 架构的采用帮助我们消除了试验过程中遇到的一些障碍」。Girshick 是 Meta 第一篇 MAE 系统论文的作者之一这篇论文的一作是何恺明他们论述了一种非常简单的方法掩蔽输入图像的随机区块并重建丢失的像素。这种模型的训练类似于 BERT 以及其他一些基于 Transformer 的语言模型研究人员会向它们展示巨大的文本数据库但有些词是缺失的或者说被「掩蔽」了。模型需要自己预测出缺失的词然后被掩蔽的词会被揭开这样模型就能检查自己的工作并更新自己的参数。这一过程会一直重复下去。Girshick 解释说为了在视觉上做类似的事情研究小组将图像分解成 patch然后掩蔽一些 patch 并要求 MAE 系统预测图像缺失的部分。该团队的突破之一是意识到掩蔽大部分图像会获得最好的结果这与语言 transformer 有着关键区别后者可能只会掩蔽 15% 的单词。「语言是一种极其密集和高效的交流系统每个符号都包含很多含义」Girshick 说「但是图像——这些来自自然世界的信号——并不是为了消除冗余而构建的。所以我们才能在创建 JPG 图像时很好地压缩内容。」Meta AI 的研究人员试验需要掩蔽多少图像获得最佳效果。Girshick 解释说通过掩蔽图像中超过 75% 的 patch他们消除了图像中的冗余否则会使任务变得过于琐碎不适合训练。他们那个由两部分组成的 MAE 系统首先使用一个编码器通过训练数据集学习像素之间的关系然后一个解码器尽最大努力从掩蔽图像中重建原始图像。在此训练方案完成后编码器还可以进行微调用于分类和目标检测等视觉任务。Girshick 说「最终让我们兴奋的点在于我们看到了这个模型在下游任务中的结果。」当使用编码器完成目标识别等任务时「我们看到的收益非常可观。」他指出继续增大模型可以获得更好的性能这对未来的模型来说是一个有潜力的方向因为 SSL「具有使用大量数据而不需要手动注释的潜力」。全力以赴地学习海量的未经筛选的数据集可能是 Meta 提高 SSL 结果的策略但也是一个越来越有争议的方法。Timnit Gebru 等人工智能伦理研究人员已经呼吁大家注意大型语言模型学习的未经整理的数据集固有的偏见这些偏见有时会导致灾难性的结果。视频和音频的自监督学习在视频 MAE 系统中掩蔽物遮蔽了每个视频帧的 95%因为帧之间的相似性意味着视频信号比静态图像有更多的冗余。Meta 研究人员 Christoph Feichtenhofer 说就视频而言MAE 方法的一大优势是视频通常需要大量计算而 MAE 通过屏蔽每帧高达 95% 的内容减少了高达 95% 的计算成本。这些实验中使用的视频片段只有几秒钟但 Feichtenhofer 表示用较长的视频训练人工智能系统是一个非常活跃的研究课题。想象一下你有一个虚拟助理他有你家的视频可以告诉你一个小时之前你把钥匙放在哪里了。更直接地说我们可以想象图像和视频系统对 Facebook 和 Instagram 上的内容审核所需的分类任务都很有用Feichtenhofer 说「integrity」是一种可能的应用「我们正在与产品团队沟通但这是非常新的我们还没有任何具体的项目。」对于音频 MAE 工作Meta AI 的团队表示他们将很快将研究成果发布在 arXiv 上。他们发现了一个巧妙的方法来应用掩蔽技术。他们将声音文件转化为声谱图即信号中频率频谱的视觉表征然后将部分图像掩蔽起来进行训练。重建的音频令人印象深刻尽管该模型目前只能处理几秒钟的片段。该音频系统的研究人员 Bernie Huang 说这项研究的潜在应用包括分类任务通过填充数据包被 drop 时丢失的音频来辅助基于 IP 的语音传输VoIP或者找到更有效的压缩音频文件的方法。Meta 一直在进行开源 AI 方面的研究如这些 MAE 模型还为人工智能社区提供了一个预训练的大型语言模型。但批评人士指出尽管在研究方面如此开放但 Meta 还没有把它的核心商业算法开放出来供大家研究即那些控制新闻推送、推荐和广告植入的算法。原文链接https://spectrum.ieee.org/unsupervised-learning-meta未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”