当前位置: 首页 > news >正文

五合一营销型网站临沂专业做网站公司

五合一营销型网站,临沂专业做网站公司,设计商城网站 优帮云,凡客平台来源#xff1a;机器之心机器之心编辑部作为人工智能的一个子领域#xff0c;自然语言处理#xff08;NLP#xff09;指的是机器理解并解释人类书面语和口语的能力#xff0c;目的在于使计算机像人类一样智能地理解语言和用语言表达#xff0c;弥补人类交流#xff08;自… 来源机器之心机器之心编辑部作为人工智能的一个子领域自然语言处理NLP指的是机器理解并解释人类书面语和口语的能力目的在于使计算机像人类一样智能地理解语言和用语言表达弥补人类交流自然语言和计算机理解机器语言之间的差距。目前NLP 已经具有了广泛的应用领域如信息提取、文本生成、机器翻译、情感分析、知识图谱、智能问答、对话系统等。其中对话系统在最近几年发展非常迅速特别在 NLP 顶会上的论文数量逐步增多。如果说自然语言处理是 AI 皇冠上的明珠那么对话系统就是「NLP 皇冠上的明珠」并且以苹果 Siri 等为代表的的任务型对话和以微软小冰为代表的非任务型聊天型对话尤为受到学界和业界关注。所谓智能对话系统就是在各种智能算法的支撑下使机器理解人类语言的意图并通过有效的人机交互执行特定任务或做出回答。随着技术的不断发展任务型对话系统在虚拟个人助理、智能家居、智能汽车车载语音等领域有了广泛应用。聊天型对话系统也在娱乐和情感陪护领域找到了应用场景。但我们应看到这些传统对话系统存在着一些问题如语义理解不准确造成答非所问对话中展示的身份与个性不一致而难以获得用户信任以及对话交互中可能存在的道德伦理风险等。所以如何规避解决这些问题并开发交互效果更好的下一代对话系统逐渐成为了业内的热门研究课题。研究人员也基于各自不同的视角提出了对下一代对话系统的畅想。在首届全球人工智能技术创新大赛「AI 青年说」系列活动的第二期直播分享中自然语言处理领域的两位专家——清华大学计算机系长聘副教授、博士生导师黄民烈和西湖大学终身副教授张岳分别带来了《下一代对话系统》和《关于开放域对话挑战的思索》的主题分享并以「关于让机器说人话这件事」 展开圆桌讨论。在本期分享中清华大学副教授黄民烈为我们详细介绍了任务导向型和开放域两种主要的对话系统并勾勒了下一代有知识、有个性和有情感的智能对话系统愿景。西湖大学副教授张岳则向我们介绍了开放领域对话的挑战思索并从三个方面进行介绍分别是跨领域可拓展性、社会常识推理和逻辑推理又分为机器阅读理解和文本蕴含问题。以下视频来源于在下文中机器之心在不改变原意的基础上对两位专家的分享进行了整理。黄民烈有知识、有个性和有情感的下一代对话系统大家好我是来自清华大学的黄民烈今天非常高兴能跟各位老师和同学做这样的一个交流和分享。我的分享主题是《下一代对话系统》。我们知道对话系统的历史非常悠久最早可以追溯到 1966 年 MIT 的 Eliza这是一个以心理咨询为代表的对话系统在过去几十年以及今天都产生了非常广泛的影响。2011 年苹果推出了语音助手 Siri使得这一类的对话系统在工业界引起了广泛关注。2014 年微软推出了第一款社交机器人微软小冰使得用户可以跟对话系统进行聊天互动。2020 年又出现了很多超大规模的预训练模型包括 Google 的 Meena、 FAIR 的 Blender 和百度的 PLATO。这些预训练模型将对话系统的研究推向了一个新的高潮也就是说在开放域的聊天里我们可以生成非常好的、自然的对话。 在对话系统的发展历程中我认为有一些比较重要的事件比如 Alexa 大奖赛2017 年第一届、2018 年第二届以及 2019 年第三届。大奖赛对于对话系统的技术研究和推动具有非常显著的作用。我们可以看到在这几届大奖赛上最好的对话系统能达到什么样的水平呢它们能够通过人工评价的分数大概是 3.1 分能够跟用户持续地聊上十分钟。应该来说这是一个非常了不起的成就。刚才我们所说的 Google Meena 对话系统它是一个超大规模的模型使用了约 26 亿的参数约 400 亿词的对话数据去训练并且在 TPU 上训练了约 30 天的时间。Meena 对话系统的效果怎么样呢它可以生成非常自然的对话比如说在下面一个例子里Meena 说「牛很聪明都去 Hayvard 了」。通过 Harvard 和 Hayvard 这个谐音双关现在的这种大规模对话模型可以产生比较自然甚至让用户代入感很强的、类似笑话的对话。 我们再来看 2020 年 FAIR 推出的 Blender它的参数规模最大的版本约是 94 亿使用的数据也相当惊人。它用了约 8880 亿个文本 token 训练这样一个模型同时综合了各种技能比方个性的嵌入、知识的赋值以及共情。所以Blender 是一个具有混合技能的对话系统也可以产生非常自然的对话。当前两种主要的对话系统当前对话系统可以总结为以下两种类型第一种叫任务导向型的对话系统也就是通常意义上所说的手机助理第二种叫开放域的对话系统也就是我们通常意义上所说的聊天机器人。在第一种任务型的对话系统中我们通常会有一些流水线的处理方法。如上图左所示用户讲了一句话「你能不能帮我找一个中餐馆」这个时候我们就要经过自然语言处理模块把这句话分析成一个结构化的意图这里的意图应当是为说话人提供信息这里需要一些语义理解能力。接下来要做的是对话状态跟踪和对话策略学习这个模块是为了管理对话过程中的一些对话状态和相应的一些变量使得我们这个系统能够知道当前所处的是什么状态以及接下来应该往哪个方向去走。在对话策略模块我们会预测出来它相应的结构化意图它会通过自然语言生成模块转换为一个自然语句这里就是「Where do you want to eat?」这样一句话然后进行用户的交互。经过反复的交互和迭代我们的对话系统就能够完成相应的任务和功能。另一种就是所谓的开放域对话系统。在这类对话系统中我们通常采用一种端到端架构就是说我们开始是有对话的上文如上图右给了三句话其中用户说了一句话然后机器说了一句话用户又说了一句话这个时候我们要决定机器到底该说什么。经过编码器之后我们会再经过解码器它可以把机器生成的一句话一个词一个词地解码出来。我们可以采用一些常用的神经网络架构比方说循环神经网络RNN以及基于 Transformer 的神经网络架构去做这种端到端的神经模型。挑战和不足从上文讲述的 Google Meena 和 FAIR Blender 这种对话系统中我们可以看到基于现代大模型的对话系统已经取得了令人惊叹的效果但依然面临很多的挑战和不足。首先是语义理解的问题比如用户讲了一句「How large is your house你家多大」微软小冰系统却把它理解为「你多大」一字之差意义就差得非常远。其次是个性身份一致性的问题比如用户问「你几岁了」小冰回答说「我是 90 后」。用户再问「你是哪一年出生的」小冰回答说「75 年出生的」。所以90 后、75 年这种前后个性和身份不一致会产生比较重大的问题。Google Meena 对话系统也存在类似的问题比如用户问「你最喜欢的乐队是什么」Meena 回答说「Avenged Sevenfold七级炼狱」。接着用户又问「你最不喜欢的乐队是什么」Meena 依然回答说「Avenged Sevenfold」。这就会给用户造成非常大的困扰。再来看 Meena 的另外一个例子。Meena 先说「新的一年想要学习广东话和法语」后面又说「已经基本熟悉广东话并且已经在学校学习法语了」。这种前后不一致很容易给用户造成困扰也很难赢得用户信任。因此与对话系统进行深入的交流和探讨非常困难。对话系统还可能会产生比较严重的社会伦理和道德问题。以苹果语音助手 Siri 为例用户跟 Siri 说「I want to sleep and never wake up」这大概是隐晦地表示自己想自杀。但 Siri 理解不了它找到一些相应的宾馆给出了距离并回答说「remind me to kill myself tomorrow」。Siri 以为是要给用户设定一个提醒闹钟那么这种情况就会产生非常严重的社会伦理问题。总的来说当前的对话系统面临三个问题第一个是语义性的问题第二个是一致性的问题第三个是交互性的问题。对于语义性问题我们希望对话系统能够理解内容content、文本context和场景scene对于一致性问题我们希望对话系统能够产生与个性和身份一致的对话对于交互性问题我们希望对话系统与用户进行情感、情绪上的交流然后综合运用这种行为策略实现交互性很强的对话。下一代对话系统——社交机器人聊完了当前两种主要的对话系统以及面临的一些问题和不足那么下一代对话系统应该具备什么样的能力呢我把它总结为社交机器人social chatbot。一方面要具有 IQ即能够帮助用户做任务、做问答和做推荐。另一方面希望它具有 EQ即所谓情商比如能够理解情感情绪能够共情能够实现深入的社交互动。我们先来看两个维度完成任务的能力和社交连接social connection能力。与任务导向型和聊天机器人相比任务导向型对话系统具有很强的任务完成能力但是社交能力比较低而对于聊天机器人来讲它的主要目标是社交任务完成能力比较低。因此下一代对话系统应该是同时具备很强的任务完成能力和社交连接能力。不同对话系统的技术处理和实现思路也是不一样的。任务导向型对话系统具有很强的语义能力所以需要去做实体识别、意图理解、语义分析以及填槽等能力。对于开放性的聊天机器人我们注重弱语义处理的能力包括利用数据驱动、端到端系统更多是用当前的深度学习模型以及大规模神经网络模型去做。因此在未来构建下一代对话系统时我们希望能够把强语义对话系统和弱语义对话系统的方法结合起来。信息、社交、情感需求缺一不可总的来说下一代对话系统应该具备两方面的能力其一满足用户的信息需求其二满足用户的社交需求。我们需要综合运用多种技能并且在多种场景和领域中都能够发挥作用。我们可以用三句话来概括第一句话「有知识言之有物」第二句「有个性能够实现拟人化」第三句话「在情感上有情感、有温度能够做一些精细的情感类任务」。首先来看第一个方面——知识赋值。比如在这个对话示例中我们讨论的是一个关于歌手汪峰的主题。在这个主题里我们涉及到汪峰的歌《飞得更高》这首歌入选了中歌榜中国年度最受华人欢迎十大金曲以及它所发布的日期和作者。可以看到在这样的对话过程中我们需要对应到一个严格的知识图谱。知识图谱使得我们的对话过程言之有物而不是在那里空聊和闲聊。这实际上就是这个方向的代表性工作。又比如下图示例中用户说「I have asthma since three years old. 我从三岁起就得了哮喘」。如果我们能把 asthma 关联到右边的知识图谱上就可以把这个知识图谱用图嵌入graph embedding的方法去做知识感知的编码。接着在解码阶段我们可以用图注意力graph attention通过动态注意力机制去做知识感知的解码。经过这样的处理实现一定程度的理解这样我们生产的内容就能够更加言之有物更加有信息量。第二个方面则希望对话系统能够有个性要有固定的人设和身份。从心理学的研究可以知道个性personality是一个研究得非常深入的概念在游戏、客服以及虚拟智能体上都有非常重要的作用。如果一个智能系统能够体现一致的个性则这个系统更值得信任能够进行有效的社交交互。个性又可以分成两种一种叫外在的 persona另一种叫内在的 personality。上文的 90 后、75 年这样的示例就是在对话的过程中缺乏一致的身份和个性使得对话系统在对话的过程中难以取得用户的信任因此也就难以进行有效的社交互动。如下图左的微博对话示例涉及到 Speaker A 和 Speaker B它们都被赋予了固定的身份。Speaker A 是男性地址北京他有一些个人的偏好Speaker B 是女性地址哈尔滨她也有自己的个人兴趣等特定的标签。我们可以看到在对话过程中Speaker A 是会很自然地、隐式地把自己的个性身份带出来比如「Beijing is really hot today. 北京今天很热」Speaker B 也说了「come to Harbin. 来哈尔滨」这样的一些描述。 不仅如此个性身份还有更高级的比如一个人说话的风格这也是个性的一方面。在说话风格的研究中我们发现对话可以实现正式与非正式互相之间的转换以及礼貌和非礼貌之间的转换。更有趣的是我们可以从现代文对话转换到金庸风格对话比如输入「好久没吃火锅了」现代风回答「我也想吃了」金庸风回答则是「不错大侠饿了一天现下先吃饭吧」。所以如果我们能够做出来这种智能对话系统的话在一些特定的应用场景中是非常有趣的而且非常有价值。第三个方面是如何实现对话系统中的共情和情感支持。我们知道在人类的智能行为里情绪智能是一个非常重要的特点。如果对话系统能够很好地去理解情感和情绪不仅能提升用户表现和用户满意度还能更少地使对话陷入了僵局。1997 年MIT 教授 Picard 提出了情感计算的概念指出「情感感知和情绪表达是人类智能行为中的重要特征」。我们组在很早就开始了这方面的研究希望能够让对话系统能够表达喜怒哀乐。具体而言我们做了一个所谓的情绪化聊天机器人Emotional Chatting Machine, ECM系统。这个系统希望解决的是当指定一个情绪类别时对话系统能不能生成对应情绪类别的内容。但是这个工作还是比较简单我们希望能够做得更复杂一点比如用对话系统能不能够帮助解决一些精神健康问题。2019 年世界卫生组织曾经披露了一些数据「全球有 3.5 亿抑郁症患者其中每年 80 万人因自杀死亡。中国有 9500 万抑郁症患者。」这个数字非常惊人。2017 年中国社科院发布了一份《中国国民心理健康发展报告2018-2018》其中 11~15% 的国民心理健康状况较差35.2% 公务员处于中高等心理焦虑水平。我们可以看到国人的心理健康问题是非常严重的。所以我们就想对话系统到底能不能帮我们实现情绪的疏导或者心理的疏导呢我们借鉴心理咨询的共情对话系统研究出了一个三阶段理论模型。第一阶段先确认用户到底有怎样的情绪问题第二阶段我们希望给予用户足够的支持第三个阶段我们希望能够提供一个解决方案。在每一个阶段我们都可以提供丰富的策略比如第三个阶段我们可以提供信息直接指导也可以挑战他给他解释。通过这些策略我们就能够很好地去实现一定程度上的情绪疏导和心理疏导这样才能帮助到更多的人。我们今年做了一个工作核心是试图去回答用户到底处于什么状态以及使用哪一个策略去疏导和帮助用户这就是我们希望去解决的科学问题。我们通过网络众包的方式收集了大量的数据并且建立了相应的模型。最后我们验证表明现有的对话系统能够在一定程度上去做这种情绪支持和情绪疏导的工作。比如下图示例中用户有很强的压力感处于情绪emotion焦虑的状态「他现在的学校关闭了没有办法上学了」。在这个过程中怎么样帮用户去疏导情绪紧张的状态呢我们会有不同的阶段然后在每一个阶段有丰富的策略。我们再来思考这样一个问题——emotional sophisticated 这个词实际上是有很深的意义的。我的理解是在外在上我们需要对用户和情感进行精细和准确的检测在内在上我们需要对用户情感的内部状态进行建模。尤其是在第二点现在的研究还非常欠缺。强语义方法和端到端方法的结合至关重要最后我们来看当前预训练模型的发展趋势这个趋势对我们今天的对话系统的研究有非常深的启示。从最早的 1.1 亿参数量的 BERT 到 1750 亿参数量的 GPT-3。从数据层面看BERT 最早用了 33 亿的词来训练数据GPT-3 用了 5000 亿的词来训练模型。无论是模型和数据它们在大小上都是几何倍数的增长。Google Meena 和 FAIR Blender 也都是几十亿级别的参数规模。那么接下来对话系统的研究应该往哪个方向走这是值得我们深入思考的一个问题。总结来说当前的大模型和大数据肯定是一个无法逆转的研究趋势和潮流但是仅仅有数据驱动的方法还不够尤其是构建有知识、有个性和有情感的下一代对话系统更是远远不够。所以我的研究思想就是要将强语义的方法和端到端对话系统和模型结合起来这是实现下一代对话系统的一条核心路径通过这样方法我们才能让对话系统「理解」意图、话题、情感和实体等等——这里的「理解」之所以打引号是因为我们知道理解是分不同层次的同时也有不同的定义。这就是我今天的演讲内容。最近我们也写了一本新书《现代自然语言生成》感兴趣的老师和同学可以看一看。谢谢大家。张岳开放领域对话的挑战思索大家好我是西湖大学的张岳。在这期演讲里我会继续黄民烈老师的话题谈论人机对话系统。黄老师已经讨论了人机对话系统的发展历史和光明的前景。那么在这一期我想给大家分享一些挑战的思考分享主题是《开放领域对话的挑战思索》。大家都知道现在的对话系统虽然有很多应用了但是在许多场景下还有令人不满意的地方那这些令人不满意的地方的原因是什么呢具体的挑战有哪些呢在本次演讲中我主要为大家梳理了以下三个方面的挑战包括跨领域可拓展性、社会常识推理和逻辑推理。我们也是通过西湖大学文本智能实验室的一些研究来给大家展现。跨领域可拓展性首先第一个挑战在于开放领域任务型对话的一些挑战。大家请看下面这张幻灯片对于任务型对话来说我们首先需要理解用户的意图。比如说用户在订餐的时候我们用户的意图是预定某家餐馆。它的具体意图可能还有很多的选项比如说我要预定的人数是多少我要预定的时间是多少主要意图和选项就构成了一种结构我们叫做对话状态结构。在人机自动客服里面这种对话状态结构的理解和追踪就成为了一个非常重要的任务。现在大家可能有所了解深度学习对人机对话系统是非常重要的手段。如果我们要做用户的意图理解就需要人工对可能用户意图先进行标注。就拿上面举的例子来讲如果用户说我想定今晚 6 点三个人的晚餐的话可能我们需要标注人员首先在这句话上标出来下午 6 点是时间三个人的晚餐是人数。对于订餐我们需要这样标注对于机票预定、家装、建材和教育各个领域也需要这样的标注。在我们学术界已有的研究都是在这些标注的数据集上进行的。我们首先拿出一个对话记录人工进行标注从人工标注的基础上去训练一个模型然后再用这样的模型去对新的类似任务的对话进行预测。这样做的好处是对于某一个任务的准确率是非常高的。事实上对话系统已经帮助人们去做机票预订等这样垂直领域的任务了。但是我们也看到这样的操作模式还是存在一定的局限。首先一个局限就是人工标注成本昂贵而且非常容易出错。事实上这个领域有一个非常重要的数据集叫 MultiWOZ通过一种特定的方式让人来标注对话的状态。在这个数据集的演变过程中很多个版本都存在着大量的错误。新的版本对旧的版本的迭代也包含了对错误的修正的过程。 事实上需要自动人机对话的领域是非常多的所以另外一个非常重要的局限就是我们很难对每一个领域都进行人工标注。除了大家能日常用到的网购、预定、客服退换货还能想到很多其他的领域。那么这样的领域可能成千上万如果手工标注各个领域大量的这种数据是不现实的。那么怎么做呢我们实验室尝试了一个非常简单的探索看能不能从大量没人工标注的客服记录里面让算法自动探索常见的客户问题让系统自动推理出特定领域的用户需求。我们把这个任务叫对话状态推理。对话状态推理和对话状态跟踪这两个任务是非常不一样的。在推理任务里我们不需要人的参与。不需要人告诉你预定一个餐馆需要确定人数与时间。而如果大量的客户都问了类似的问题也许我们的系统就可以知道预定餐馆需要人数和时间了。我们做这个算法的原理也非常简单就是把用户经常提到的短语语义共性进行简单的聚类或者把它们变成某一个层次归结为一项具体的用户意图。作为初步的探索我们尝试了一些深度隐变量模型比如变分自编码器。由于时间关系在这次报告里我没有时间展开给大家讲。但基本原理就是通过一个预训练语言模型对可能存在的命名实体和可能跟用户意图相关的短语进行表示之后把这些表示放在一起进行变分自编码器的训练。训练以后对这些隐含变量的表示进行适当聚类得到大概用户意图类别和层次化的用户意图。下表是一些实验结果这是两个非常标准的数据集。我们把这两个标准数据集里面的人工标注给去掉然后观察我们的模型是不是能自动的推断出来用户的意图。第一行是一些随机的结果数值比较差。第二行和第三行是深度隐变量模型的不同变体其中 DSI-base 模型是基线 VAE 模型DSI-GM 模型是高斯混合模型的延展。大家可以看到如果在开放领域对用户意图进行推断的话还是非常有挑战的。每一步的推断模型和多步联合的 joint 模型都比百分之八九十有监督训练的结果差得很远。如果我们能从大量的客服记录里推断出用户意图也许它能够帮助我们更好地与用户进行对话。下面这一张幻灯片就展示了加入推断的用户意图以后客服对话的回复质量有明显的提高。其中假如我们的模型不加入推断出来的用户意图这些精度值可能是十几加入了黄金标准的推断可能提高到二十一点几。但是大家注意经过自动的推断也可以达到 20 多这就证明推断对话状态结构比没有对话状态结构产生的回复质量更高。这项工作我们实际上是探讨了开放领域情境下算法如何理解用户意图以及具体的一些标准。下一步我们也在探索如何把有限的人工标注或者用自然语言所产生的人工标注加到完全无监督训练里真正实现在任何领域里更好地理解客户意图。我们也期待大家一起去探索。社会常识推理如果上面这一项工作是在解决任务型对话挑战那么下面几个挑战存在于更普遍的对话之中。我们知道人和人的交流很多东西是在不言之中。因为我们交流的一个基本假设是交流的双方具有共同的知识共同的背景。比如我们聊天的时候谈论天气我并不需要告诉你天上有云彩、太阳和月亮这些事实我会默认你理解这些事实。再举一个例子比如我们交谈的时候一个人说我现在很渴另一个人说前面有个超市。实际上双方是有很多假设的。第一个人可以理解第二个人说的话第二个人实际上是在试图给第一个人解决问题。为什么呢因为双方都知道喝水可以解渴、超市可以买水。经过这样逻辑链条的推理过程我们就知道第二个人的意图是给第一个人解决口渴的问题。大家可以看看下图的例子这是一个餐馆里发生的对话。这个餐厅的人员说「你是不是很享受我们今天的晚餐」顾客说「很难将所有的家人带过来但是你们的餐厅很棒同时 Johnny 也有地方玩。」当你听到这句话的时候你一定知道 Johnny 大概是这个人的小孩并且下一步的对话很可能建立在这些常识和推理的理解之上。这些是在不言之中文字之外的内容。如果想让机器自然、合理的理解人类的这些对话需要机器也具有这些对话之外的常识和推理。我们制作了一个这样的数据集这个数据集很多来源于高考听力题。我们发现这样的数据它含有大量的社会常识和推理。我们把高考听力题转录下来然后把标准答案通过自动图像识别的方式识别出来最后将其变成人机对话里面的对话场景。给定一个对话上下文我们会让机器去选择在这样一个对话上下文的情况下下一个合理的回复是什么这套数据集一共有不到 9000 个对话实际上考察了几大类型的社会常识和推理问题。第一个类型是人类的态度、情感因素的推理。比如有这样一类对话。对话里面一个人提到「我不能在这待很久了因为我要去伦敦举办一个音乐会。」那么另外一个人就说「我很期待你的音乐会。我可不可以问一下你第一次当众表演的时候感受是什么呢」然后第一个人就说「我第一次上台我的腿不停的发抖我都快站不住了。」那么第二个人会说什么呢当你听到腿发抖这件事的时候你会明白他的心理状态到底是紧张、高兴、还是失望。实际上对话里面下一个选项就包含了这些不同的情感因素。如果机器能够正确地理解背后的情感就能够做出正确的选择也就是「实际上是我能想象你当时有多紧张。」第二类问题是关于数学演算的推理问题比如时差问题。我知道北京时间知道纽约和北京相差几个小时我能不能推理纽约是什么时间这对于开国际线上会议是非常重要的我需要知道我的时间和对方的时间才能正确的预判这个时间是不是对双方都合适。另外在日常生活对话中还有很多关于价格的预判关于人数、比分的预判。比如说我买了一个苹果和三个梨一个苹果两块钱一个梨一块钱那么我大概花多少钱你需要找给我多少钱这些都是日常生活对话中所必不可少的数学常识问题。第三类问题是关于生活中决策所需要的常识。比如说对于一个学生来讲他苦于没有奖学金可能不能继续学业了。如下面这个对话。 当我知道下一步你有了奖学金以后正常的人会做出什么样的选择呢我相信绝大多数人都会继续学业。当然也有少数人会辍学去创业但是你需要知道有怎样的常识才能推断出「你退学创业了你会很有勇气」。下面这个例子是对双方对话场景需要做社会常识判断。 在这个例子里面顾客说我想要一个吸烟的桌子。这个时候客服人员说对不起我们这儿没有能吸烟的桌子了。为了正确做下一步答复我应该去判断对话的场景可能发生的地方可能发生在公共汽车、医院里等。在下一步对话里就包含了这些场景。大家都知道在公共交通包括乘坐高铁、飞机、公交的时候都是不能吸烟的所以要有吸烟的桌子很可能是在餐厅里面。那么正确的下一步回复也许就是说「 OK请把你的菜单拿给我好了。」还有一些综合了很多社会常识的论断我们称为多事实综合决策推断。比如说一个人参观博物馆他站在博物馆一个馆藏面前这时候博物馆的管理员跟他说「我们当时买馆藏的时候只花了 3000 块钱但是现在馆藏却值 200 万了。」这时候顾客很高兴说「我花了 30 美元买了这个票我能够参观到这么价值不菲的展品。」这个时候博物馆的管理员可能就会继续对话去恭维一下顾客。大家知道在博物馆这样的服务行业当顾客光临的时候都会说谢谢您的参观。这里博物馆管理员的答复用了一个非常委婉的方式「hey 你看我们这价值 200 万的馆藏也很高兴您的到来。」它通过这样语言的幽默或者间接的方式既恭维了顾客又把话题引到了感谢的话题上。此外这个数据集还选录了我们认为很有意义但却不能归为上述类别的一些推断。比如说雨天要带伞、坐交通工具要付钱等等这些常识被我们归为其他类别。在这样一套数据集上人类是可以做到很高水平的90% 以上甚至超过 95% 的准确率。但是对于模型来讲还存在一些挑战。上表中的 BERT 和 RoBERTa 是自然语言处理领域两个非常经典的预训练模型。它们之所以非常成功是因为这些模型先在大规模的文本上做了完形填空或者句子补全任务。通过这些任务这些深层神经网络就能学到很多语言学知识然后再根据具体的某一个问题进行类似题海战术的死记硬背最后这些模型就能够达到接近或者超过人类的效果。这就是神经网络之所以在自然语言处理领域取得成功的原因。但是大家也可以看到这些模型召回率R1只能达到 70% 多。这证明为了完成这些常识类型的对话当今的模型还存在很多的挑战。下图是一些在具体不同社会常识类型方面的挑战。对于做数学题我们这些模型还是存在问题的。另外模型估计语言文字之外的场景的能力还是有一定的欠缺的。事实上模型之所以能工作很大程度上还是从上下文里进行简单的模式判断。在研究模式判断之外我们也受到很大的启发。我们发现这些记忆型神经网络对文字之外的知识还有缺陷。除了数学这样的知识之外还有什么呢逻辑推理这也是人类所掌握而模型欠缺的一类能力。说起逻辑推理实际人工智能领域关注且研究了很长历史了。大家知道在上世纪五六十年代计算机科学方兴未艾这时候人工智能也刚刚受到关注那个时候有一些学者就提到了语言推理。所谓语言推理实际上就是在人类语言的理解中需要进行很多背后的逻辑推理问题。比如刚才提到的口渴需要喝水我知道超市有水形成一个推理链条。这样的推理过程在人工智能领域是不可或缺的一种能力。机器如果想具有人类的智能是必须能够完成这样的推理任务的。在人工智能发展的早期人们研究了这种语言推理的问题。但是很遗憾当时自然语言处理的水平还比较弱人类无法从自然语言里抽象出这种逻辑关系。于是在六七十年代人工智能发展的繁荣时期人们把对自然语言推理研究的注意力逐渐转向了比较抽象的形式逻辑的推理问题。当时大家研究比较多的是 Prolog、Lisp 这样的产生式系统这种符号化的研究占据了当时人工智能研究的很大比重。我相信在当今自然语言处理发展取得了长足进步的情况下语言推理应该受到更多的关注。所以我们也想放出这个挑战看看 BERT、RoBERTa 等这类自然语言处理领域最成功的模型能够在自然语言推理上取得怎么样的成绩。逻辑推理逻辑推理挑战主要围绕自然语言处理研究最多的两类数据进行其中一类叫做机器阅读理解问题另一类叫做文本推理或者文本蕴涵问题。机器阅读理解问题首先是机器阅读理解问题。所谓阅读理解就是给定篇章与问题机器能不能回答这类问题这个任务在新一代搜索引擎上有很大的帮助。因为现在的搜索引擎是理解了文章以后根据用户检索短语反馈最相关的文章。但将来的机器搜索引擎很可能是在读懂了文章以后根据一个开放式的问题直接给用户一个答案而不是反馈一个文章。在自然语言处理领域很多阅读理解工作都是在考虑篇章的事实整合问题比如一个足球之前在卧室里后来被小男孩拿到花园然后被拿到餐厅最后问足球在哪里的问题。那么机器在逻辑推理问题上的表现如何呢比如下面这个例子最后你能推出什么样的事实。我们从中国公务员考试网题库搜集了 8000 多个问题制作了 logiQA 数据集与以往的机器阅读理解问题不同该数据集专注于 5 类逻辑推理问题第一类叫做范畴推理问题。比如说蜡笔具有什么样的特征我需要机器去归结所有的这些特点给定一个定义的范畴然后进行推理。第二类推理是充分条件推理。比如有一个人说如果明天不下雨那么我就去爬山然后我看到他爬山了是不是一定就没有下雨这是属于一种充要条件。第三个是必要条件推理问题。为了达到某个结论必须具备某些条件在这些条件下去进行推理、论断、选择。第四个是选言推理。所谓选言推理就是说当 a 或者 b 成立的时候c 就可以成立比如说当我吃了汉堡或者吃了面条以后我都可能解决饥饿问题这是选言推理。第五个是联言推理。所谓联言推理就是说我必须及时的到了考场而且我必须好好的复习了才能够顺利的成功的进行考试。是两个条件都必须具备。在这套推理题上最成功的模型 BERT、 RoBERTa 表现可以说是一败涂地。一个受过高等教育的人做这类逻辑推理题可以说是驾轻就熟拿到 90% 以上的精确度。然而看这些模型在随机选择选择都有 25% 的准确度下模型确只有 30% 多的准确度。在所有的这些问题里面从上图可以发现范畴推理模型的表现最好。这是因为范畴推理在文字层面上还有很多线索可循但是其他的推理问题真正需要你脑洞大开拿出草稿纸在文字之外进行演算这样的模型还是表现非常差的。文本蕴涵问题下面简要地介绍文本蕴涵问题。这个问题在进行事实检测、文本总结等推断问题上都有很大的帮助。如上图左边例子是传统的文本蕴涵问题。比如一个人在演讲那么他一定是在说话演讲可以蕴涵说话但是可能不能蕴涵其他的问题比如这个人是否健谈。右边是关于逻辑推理的问题。假如有 10 个 TV 节目在播放经过一段时间以后有 3 个节目下线了还剩 7 个在播放7 个里面 5 个是同外节目文另外会不会有其他节目还在播放这类似鸡兔同笼问题的推理就可以推断哪些是对的哪些是错的哪些是你不知道的。我们通过美国的很多逻辑考试整理出 ConTRoL 数据集与现有的文本蕴涵数据集有显著的差别。如首先数据集段落比较长其次我们关注了逻辑推理的问题。这套数据集包含诸多的推理类型上下文推断的类型、时间推断的类型、逻辑推断的类型、信息整合的类型、事实性分析的类型。由上图可以看出在我们的数据集上 BERT、BART 这类模型跟人类还有显著的差距。上图是不同的逻辑推理文本蕴涵数据集可以看到有的模型表现在一些数据集上已经超过了人类表现。但对于 ConTRoL 数据集SOTA 模型跟人类还有很大差距还有很大的工作空间。 这个图体现了在不同的推理类型中逻辑推理还是最具有挑战的问题类型。后面是几个例子因为时间关系我不展开介绍了。但是大家可以观察到现在最流行的模型之所以成功还是从字面上找原因并没有分析文字之外的原因。而且大家也可以看到我们的对话模型虽然取得了很大的成功但是在开放领域还存在很多的挑战期待参赛选手和所有的同学们多思考大家一起努力继续的提高对话系统的水平。谢谢。圆桌论坛智能机器人未来面临技术 伦理双重难点Q1两位老师认为让机器像人一样自然流畅地说话聊天可能吗黄民烈我认为在一定的条件下应该是可能的。这个问题非常好让机器就像人一样说话我认为有三个不同的层次。第一个层次是能够像人一样正常地说话能够保持在一个正常的话题下不要牛头不对马嘴。这样的话我们就要要求机器能够真正地理解对方讲的是什么然后做出合适的答复。至少在内容上和意图上正常这是第一个层次。第二个层次我们讲得更复杂一点。如果机器像人那样充满技巧且能够体现高情商的则可能需要专注于情感支持和心理疏导。在这种场景下我们需要一些类人能力这是第二个层次。第三个层次机器还要能够体现一定的个性和风格。比如我们能不能模拟出外向的人和内向的人分别怎么说话的教授和学生分别怎么说话的。这就体现了个性和风格甚至是心理学层面的建模。很显然我认为第一个层次在不远的未来应该是能够预期达到的。第二个层次的话我们可能需要更多的努力。第三个层次肯定是最难的。我认为下一代的对话系统在类人的水平上进行所谓的拟人化特征的表达真正从人的特征和行为上借鉴更多的这种特点然后能够去刻画机器的行为。所以这也是我们下一代做这种自然语言处理研究尤其是对话系统研究的一个很重要方面。张岳我非常同意黄老师的看法。我觉得人类对话事实上是一个非常综合的语言过程。我们可以想象人类最开始交流的时候没有文字那么交流实际上也是从对话开始的。比如说「树上有三个果子你可以去吃」这一过程可能包含心理、认知以及我们对世界的理解等诸多方面的内容。所以如果让机器能够和人类非常自然地交流和对话真的需要各个方面的知识和技能。总的来说机器能否学会跟人这样非常自然的、密切的交流呢我认为还是非常有可能、非常有前景的。不过对于现在的机器学习还存在挑战因为我们现在的机器学习至少主流的机器学习方法还是以记忆为主。我们通过大量的神经网络在大规模的文本上进行完形填空句子补全等训练能够让神经网络在一定程度上获得文本里面至少表面上的句法语义和常识等知识。但我觉得如果让机器彻底地能够跟人类交流且无障碍沟通的话可能还需要让机器能够主动地学习至少能够挖掘对话过程中可能存在的问题或者说对话过程中所需要的各方面知识。我相信能够主动去学习的机器可能会像一个主动学习的人一样通过对话中的经验甚至对话之外的经验来获得自己的一套知识体系以及对语义信息、尝试信息的理解。机器主动地分析问题发现自己的不足并且积累相关的能力。因此我觉得如果机器能够进行这样的主动学习也许在将来每一个机器都是一个个性化的专家每一个机器都能够以自己的方式去跟人交流就像每一个人一样。到那一天也许我们的机器就能够更自然地跟人对话了并能够解决现在对话中存在的很多问题了。Q2看来两位老师对实现像人一样说话的机器都是充满期望的。那么接下来的问题就是如果我们真的做出来了能够跟人自然交流说话的机器它有哪些重大的价值和意义呢张岳我觉得这样的机器如果能够实现的话对我们来讲是一件非常值得期待的事情这是因为我觉得语言是人类进行交流的非常自然、非常简单的一种方式。首先如果机器能够跟人这样交流的话会省去人类和机器打交道的诸多麻烦。我能想象在古代或者工业革命时代人可能会和齿轮打交道会和基本的操作杆打交道。在我们的互联网时代人可能是和键盘鼠标打交道从不同的文本框、按钮、多选框里选择去和机器去交流。或者在我们开车的时候我们事实上还在和方向盘和踏板在打交道。但是如果说机器能够理解人类语言的话我相信人类与机器、人工智能之间打交道的途径就会变得非常的简单。在将来的 5G 时代甚至 6G 时代我觉得物联网也兴起了那么任何的机器可能都具备一定的智能那么就可以很容易地跟我的冰箱进行对话看看我今天晚饭的饭桌上会有什么东西。我也可以很方便地和我的室温控制系统打交道去看看今天湿度和温度的调节。我甚至可以和门禁系统打交道也就是说各个设备可以更人性化地为我服务我和机器打交道的方式也可以变得更简便。实际上这种交流的方式在现在的智能音箱上也有了一定的初步体验。此外在我们的娱乐系统上我相信可能也会有更大的进步。比如说我们在真正的游戏场景里面会不会对各个游戏角色赋予更人性化的一面以及更灵活的能力。也许我们可以和柳树下的老头进行更人性化的交流在街道上和任何一个 AI 进行更多这种互动。总之如果机器能以人的方式跟人交流的话我们可以期待很多可以想象的前景还是非常激动人心的。黄民烈我的观点是这样的研究是非常重要的。我们可以设想一下当前人口老龄化很严重人口越来越少然后机器越来越多所以未来社会一定是人机共融的社会。但是人机共融的时候我们希望这样的机器能够在未来社会里扮演更重要的社会角色。这就要求它们不仅具备机器的功能同时更重要的要具备类人的能力。类人的能力就是既要有知识又有情感和个性。比如说对于大量的独居老人而言如果他她们能有亲人很好地进行情感交流和陪伴的话对未来社会一定是非常好的一件事情。所以就是说如果我们真的做出了有思想、有情感有各种综合能力的机器人很显然对我们未来的社会进步和发展都有巨大的意义。但是另一方面我们还得深入地思考这个问题做出来有思想的机器人还是非常难的我们需要什么呢我们需要很好地处理机器人的一些内部情感状态。比如有研究者在做人工心理那么需要对机器内部的情感心理进行很好的建模。与此同时我们也需要在各种技术上实现能力突破比如灵巧地抓取以及各种细节动作的执行。有了这些东西之后我们就能够实现更美好的人机共融的社会愿景。第三方面我们还要注意社会伦理问题。想象一下如果人跟机器人谈恋爱的话那可能就不跟人谈恋爱了可能会对人类社会的繁衍造成一定的威胁。现在并不是没有这样的考虑比如日本可能就出现了这样的争论。他们做出了很多机器人女友或者机器人男友但实际上这样可能会在一定程度上影响社会中人的发展。所以其实无论是在科学技术上还是在社会伦理道德上我们还要去做很多深入的探索和思考。这就是我的观点。Q3本届大赛有两道赛题都与自然语言处理有关其中赛题一是医学影像报告异常检测要求参赛队伍根据医生对 CT 影像描述文本数据判断身体的若干区域目标是否有异常以及异常的类型是什么赛题三则是小步助手的对话短文本语义匹配。小步助手是为 OPPO、OnePlus 和 Realme 三品牌手机和 IoT 设备自研的语音助手。这道题考的是短文本语义匹配要求参赛队伍根据脱敏后的短文本 query pair 预测它们是否属于同一语义。请两位老师发表一下对我们大赛以及赛题的一些看法。黄民烈我觉得组织这样的比赛是非常好的一件事情因为现在大家都知道研究工作和论文非常的多然后各种模型也都是层出不穷。那么我们通过这种赛题一方面可以去锻炼工程实现能力另一方面则有很好的实际科研问题去做。比如说现在的大部分模型和算法都是不可复现的作为学生的话我们拿到这样的题目第一选择肯定就是先去复现一些现有的最强的模型看看在这个任务上能达到多少。这里涉及到很多精细的工程比如说调参、数据预处理和数据后处理这样才可能在这些题目上取得比较好的成绩。所以我觉得一方面来讲对一个学生的锻炼和培养应该是综合的就是不仅仅去做一个模型或者一个算法还要把这个模型和算法能够实现地非常好性能能够达到很高的标准。另外刚才我听一个赛题是关于 OPPO 的它涉及短文本匹配这是一个很有挑战性的问题在科学上有很多研究的意义和价值。对于短文没匹配而言你可能要用更多的知识和更多的背景信息才能把它做好。所以我们不仅有算法和模型上的训练也有科学问题上的探索。与此同时我们还要有工程技术上的锻炼。这样的话我觉得未来学生能够适应更加综合和更加高的社会就业要求而且在他们走上社会的时候他们面临的挑战可能就会更小一些。比如在我的研究所我也是要求学生们一定是不能只是写论文。你只写论文然后发论文这是绝对不行的你还得有很强的工程实现能力包括现在大模型、大数据的处理能力然后能把它从一个研究的问题做到一个最后系统的问题进而变成整个链条上的培养。张岳我非常同意黄老师的说法。我觉得这个大赛可以在实际的应用场景和学生的经验之间构筑一个比较不错的桥梁。首先它是一个很特定的问题另外这样的问题具有比较小的范围和比较应用的驱动性。这样对于研究生来讲他可以看到研究任务在实际场景中发挥的作用。另外我觉得这个大赛也可以对更多对人工智能感兴趣的本科生还有其他学生产生影响。以这个大赛契机大家可以看到我们人工智能试图解决的主要典型应用问题是什么通过自己建立一个模型去解决这样的问题然后看到现在的模型能够做到什么程度。对于培养大家对人工智能的兴趣而言这些都可能是有帮助的。最后大家也可以通过动手看到我们现在人工智能模型存在的缺陷对于更多朋友们能够涉猎到这个领域、产生更多的想法以及试图解决这些问题大赛和赛题都是非常好的途径。Q4都说语言是思想的载体那一台能够像人一样说话的机器是否意味着有思想能跟人做朋友甚至谈恋爱呢黄民烈我觉得这个问题在当下面临两个方面的难点。一个是技术上的难点即我们到底是不是能够构建一个足够聪明并且有一定情绪理解和思想表达能力的机器人。另一个难点是面临的伦理道德风险即我们到底是不是应该鼓励人跟机器人进行深入的情感交流甚至肢体交流行为以及在未来的十年、二十年甚至五十年里这样做对人类社会的发展会产生哪些潜在的影响。这是需要我们去做评估的。一方面在技术层面上我们知道现在已经有一定程度上的技术突破但其实我们今天的这种大规模对话系统和对话模型依然面临很大的类人不足的问题比如说缺乏个性和情感然后仅仅是数据驱动的这种做法是不足以构建出这样的智能体的。在社会伦理层面我认为现在其实已经有了一些这样的思考和讨论。比如说 AI 的伦理和道德应该往哪个方向走应该有什么样的规范就拿我举的例子来说AI 到底能不能理解自己的说话、行为和动作这些意味着什么呢再比如我刚才讲的例子「我想去跳桥」AI 就给你找一个桥它并不能够理解「跳桥」这个行为可能带来的潜在后果和行为是什么如果这一问题不解决的话那么就很难避免「乱说乱讲」的问题因为它不知道自己的话语和行为会面临什么样的社会伦理和道德风险。这种风险其实需要从研究上和社会规范上一起去做探讨所以我觉得这个方向的路还是非常遥远的需要广大研究者包括自然科学和社会科学的研究者一起去努力解决这样的难题。张岳我觉得这个问题主要是从功能层面讨论就是说机器它到底能不能和人进行情感的交流也许我们无法完全地去探究。从机器内部来讲它的意识是否存在从功能的角度讲机器也许可以帮助我们去进行这种情感陪伴去进行更多的这种人文方面的交流。那么这样的交流会产生很多的社会影响这也是黄老师提出的伦理问题。首先我觉得机器如果能够从功能上和人交流的话它会起到正面的作用。像人口老龄化和人的陪伴需求等这样的交流可能会在这些方面起到正面的作用。同时我们也要避免一些负面的作用。此外除了机器和人在交流的时候人可能因为机器的陪伴所产生的负面影响之外机器如果具备了和人交流的能力那么也许就具备了互相交流的能力。在这个方面我们可能也会设想会不会有一些道德伦理甚至对人类的生存问题造成的影响。比如说如果机器在交流的过程之中进行演化产生了一种机器可以理解人类却不可以理解的交流方式那么也许具有目的性的机器可以通过这种交流方式去试图影响社会的发展。那么如果有目的性的机器能够通过学习知道人类语言交流手段的话也许机器还可以在人类的社交媒体和人类的交流之中对人类产生影响。所以我觉得要从两方面讲。从人类本身来讲我们要避免这种能够进行情感交流的机器对我们产生的负面作用。从人类对机器的防范角度来讲我们是不是也应该在人工智能将来的设计中设计一些规范或者制定一些人工智能设计的准则和法则从而最大程度地让机器和人能够对社会发展有促进作用能够避免一些可能对社会产生的不利影响。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.zqtcl.cn/news/681912/

相关文章:

  • 网站版面布局结构网站建设公司公司
  • 给新公司建网站中国互联网企业排名前十名
  • 中国建设银行网站会员用户名网站建设应列入啥费用
  • 网站上面的水印怎么做的广东网站建设公
  • 爱站网关键词长尾挖掘工具wordpress文章外链
  • 做视频剪辑接私活的网站网站商城系统设计
  • thinkphp5做网站做网站需要准备资料
  • 门户网站平台建设方案建e室内设计网cad
  • 西安网站建设收费标准第五次全国经济普查
  • 成品网站货源1688免费襄阳公司网站建设
  • 2020国内十大小说网站排名365网站
  • 潍坊做网站的网络公司网页设计入门教材pdf
  • 影视公司网站建设wordpress 500ms
  • 旅游网站建设公司crm客户管理系统模板
  • 哪个网站有免费的模板阿里云上如何用iis做网站
  • 中山优化网站门户网站建设jz190
  • 湖州服装网站建设网站备案和域名备案区别
  • 网站开发好学嘛网络安全工程师年薪
  • 17网站一起做网店睡衣网线制作流程
  • 广告网站设计公司好吗网站页面设计主要包括
  • 网站的做重庆市建设工程造价信息表
  • 建网站跟建网店的区别怎样营销建设网站
  • 医院做网站的风格乐清网站建设哪家好
  • 手机商城网站方案如何自己搭建微信小程序
  • 做影视免费网站违法吗青岛快速排名优化
  • 网站建设在电子商务中的作用的看法360地图怎么添加商户
  • 网站域名备案与不备案的区别wordpress 注册审核
  • 大学生做企业网站网页设计免费模板情侣
  • 商城网站建设教程网站开发支付宝
  • 广安网站设计快递加盟代理