wordpress怎么自动手机版,绍兴seo外包,一建十大网校排名,旅游网站有哪些?根据Guide2Research的排名#xff0c;IROS是计算机视觉领域排名第四的学术会议#xff0c;前三名分别为CVPR、ICCV、ECCV。计算机视觉在机器人的发展史中起着非常重要的作用#xff0c;与之相关的“感知”也正是历年IROS大会上的重要内容#xff0c;随着机器人研究的发展和… 根据Guide2Research的排名IROS是计算机视觉领域排名第四的学术会议前三名分别为CVPR、ICCV、ECCV。计算机视觉在机器人的发展史中起着非常重要的作用与之相关的“感知”也正是历年IROS大会上的重要内容随着机器人研究的发展和“越来越接近人类”这个目标的进一步深入越来越多的学者更深刻认识到了计算机视觉对机器人整个行业发展的重要性。雷锋网认为随着近几年深度学习在计算机视觉领域的突破计算机视觉在机器人领域的应用也将会迎来一个新的时期这也是今年的IROS大会邀请李飞飞教授到IROS做大会报告的原因。 如李飞飞开场所言这是她第一回参加IROS但她希望和做机器人研究的朋友们进行交流分享在她眼中计算机视觉对机器人意味着什么并介绍她在ImageNet后与其斯坦福研究团队正在从事的其他研究项目而这些项目对未来机器人的感知和认识我们所处的环境尤为重要。 “希望可以说服做机器人研究的朋友计算机视觉是机器人的杀手级应用。”在演讲前一天李飞飞在Twitter上这么说。 由于篇幅限制报告分为上下两篇。在上半部分李飞飞解释了为什么计算机视觉会是机器人的杀手级应用雷锋网(公众号雷锋网)作了不改变愿意的删减。 李飞飞在 IROS 2017 李飞飞我会与大家分享最近在做的视觉工作聊一聊计算机视觉与视觉智能领域的历史背景。这些都是仍在进行中的研究欢迎自由讨论。 视觉究竟有多重要 朋友建议我在机器人大会演讲至少要放一张机器人的图片。我挑了一张最喜欢的 问题来了为什么在这幅儿童画里机器人是有眼睛的 我认为这与进化演进有关。不管是智慧动物还是智能体眼睛/视觉/视力都是最基本的东西儿童在潜意识里也这么认为。让我们回到 5.4 亿年前的寒武纪——在寒武纪生物大爆发之前地球上的生物种类算不上多全都生活在水里被动获取食物。但在距今约 5.4 亿年的时候非常奇怪的事情发生了如下图短短一千万年的时间内各种各样的新物种纷纷涌现这便是“寒武纪大爆发”。 这背后的原因是什么 最近一名澳大利亚学者提出了一套非常有影响力的理论把寒武纪大爆发归功于——视觉。在寒武纪最早的三叶虫进化出了一套非常原始的视力系统就像最原始的德科相机能捕捉到一丁点光。但这改变了一切能“看”之后动物开始主动捕食。猎手和猎物之间从此开始了持续数亿年的“追踪—躲藏”游戏行为越来越复杂。从这个节点往后几乎地球上所有动物都进化出了某种形式上的视觉系统。5.4 亿年之后的今天对于人类眼睛已成为我们最重要的传感器超过一半的大脑都会参与视觉功能。 在地球生物向更高智慧水平进化的过程中视觉真的是非常重要的推动力量。 这套如此神奇的感知系统便是我今天想要讲的主题。这也是我们对机器的追求——让机器拥有人类这样的视觉智能。 从人类到机器视觉 下面我讲一个小故事关于人类视觉系统的令人惊叹之处。 在 1960 年代的好莱坞诞生了一个非常有里程碑意义的历史电影《The Pawnbroker》首部以幸存者角度表现二战中犹太人大屠杀的美国电影 。随着这部电影诞生了一种全新的为电影插入视频剪辑的技术导演 Sidney Lumet 对此做了个很有意思的实验——插入的画面需要显示多久才能让观众抓住内容。 他不断缩短画面播放的时间从十几秒到几秒最后到三分之一秒——他发现这是一个相当好的时长足够观众看清楚并且充分理解画面。 心理学家和认识科学家们受此启发开展了更进一步的实验向参与者播放连续多帧画面每帧的显示时间仅有 100 微秒。其中仅有一幅画面里有一个人要求参与者找出这个人。 而大家确实都能够找出来。这非常令人惊叹只需 100 微秒我们的视觉系统就能检测到从来没见过的人。 1996 年神经心理学家 Simon J. Thorpe 在 《自然》发表了一项研究通过脑电波观察人脑对复杂图像进行分类的速度。他发现仅需 150 微秒大脑就会发出一道区分信号对画面中的物体是否为动物做出判断。 后来哈佛人体视觉学者 Jeremy Wolfe 在论文中写道虽然很难去衡量一个人究竟看到了什么、对某个画面达到了什么程度的理解但直觉告诉我们画面中的物体应当是我们观察的对象之一。 看起来很显而易见但这提醒我们对物体的识别是视觉最基础的部分之一计算机视觉也在这个领域攻关了许多年。从 2010 到 2017ImageNet 挑战赛的目标识别object recognition错误率一直在下降。到 2015 年错误率已经达到甚至低于人类水平。 我不会说目标识别是个已经攻克的领域。许多关键问题尚待研究其中不少和机器人息息相关。比如 3D 轮廓理解目标局部理解对材料、纹理的理解等等。这些方面的研究非常活跃我也感觉到做这些比组织 ImageNet 分类任务挑战赛更有意思。 后目标识别时代的计算机视觉 接下来我想分享一些新的、探索性的工作而不是列出识别对象清单inventory list of objects这样的基础研究。让我们回到 Jeremy Wolfe 的论文他继续写道“物体之间的关系必须写进 gist。” 假设有两张图片把一盒牛奶倒进玻璃杯把一盒牛奶倒出来倒在空中旁边放着一只玻璃杯。两者不是一回事。两张图片中的物体都一样但它们之间的关系不同。 仅凭图片的对象清单无法完整传递其内容。下面是另一个例子 两张照片都是人和羊驼但是发生的事情完全不同。当然过去在这方面也有不少研究包括空间关系行为关系概率关系等等就不一一阐述了。这些工作基本都在小型封闭环境中开发测试探索的也不过十几、二十几种关系。而我们希望把视觉关系的研究推向更大的尺度。 我们的工作基于视觉表达和 leverage model 的结合通过把图像空间的 embedding 以及关于对象关系的自然语言描述以巧妙的方式结合起来避免了在对象和对象之间的关系做乘法带来的计算负担。 上图展示的便是可视化结果的质量。给定该照片我们的算法能找出空间关系、比较关系、不对称空间关系、动词关系、行为关系以及介词关系。 更有意思的是我们的算法能实现 zero-shot 零样本学习对象关系识别。举个例子用一张某人坐在椅子上、消防栓在旁边的图片训练算法。然后再拿出另一张图片一个人坐在消防栓上。虽然算法没见过这张图片但能够表达出这是“一个人坐在消防栓上”。 类似的算法能识别出“一匹马戴着帽子”虽然训练集里只有“人骑马”以及“人戴着帽子”的图片。当然这个算法还很不完美。例如当两个类似的对象如两个人部分重叠在一起算法就容易判断失误。如下图算法错误得认为是左边的人在扔飞碟 这是一个计算机视觉下面飞速发展的领域。在我们团队的 ECCV 2016 论文之后今年有一大堆相关论文发表了出来一些甚至已经接近了我们的模型效果。我非常欣喜能看到该领域繁荣起来。 本文作者三川 本文转自雷锋网禁止二次转载原文链接