做网站代码编辑工具,昆明利于优化的网站,福建省建设厅招标网站,梧州网站建设制作来源#xff1a;中国人工智能学会文 #xff1a;孙茂松人类语言#xff08;即自然语言#xff09;的重要性无论怎么讲都不为过。社会生物学之父爱德华威尔逊曾说过#xff1a;“语言是继真核细胞之后最伟大的进化成就”。科普畅销书《信息简史》的作者詹姆斯格雷克也深刻地… 来源中国人工智能学会文 孙茂松人类语言即自然语言的重要性无论怎么讲都不为过。社会生物学之父爱德华·威尔逊曾说过“语言是继真核细胞之后最伟大的进化成就”。科普畅销书《信息简史》的作者詹姆斯·格雷克也深刻地指出“语言本身就是人类有史以来最大的技术发明”。这些断言带有科学哲学的意味反映了现代人类对语言本质理解的不断深化。 众所周知语言是人类所独有的是思维的载体是人类交流思想、表达情感最自然、最深刻、最方便的工具。其中这几个“最”字非同小可。语言之于人类就如同空气之于生物它时时刻刻、无声无息地融通于我们生活的世界中它是如此的自然以至于我们常常意识不到它的存在但一旦没有了它人类将举步维艰。很不幸人类语言能力正是现代计算机系统所不具备的呈现出整体性缺失。一个显而易见的逻辑是没有语言能力的机器不可能有真正的智能。 自然语言具有无穷语义组合性、高度歧义性和持续进化性等机器要实现完全意义上的自然语言理解“难于上青天”。自然语言理解一个退而求其次的提法——自然语言处理因其兼具无与伦比的科学意义与学术挑战度吸引了一代代学者殚思竭虑、前赴后继。简介自然语言处理对世界人工智能发展三个里程碑式的贡献“却顾所来径、苍苍横翠微”。笔者认为自然语言处理研究包括文本处理和语音处理两个相辅相成的方面在世界人工智能发展史上有三个里程碑式的“开风气之先”贡献。不揣孤陋寡闻一孔之见不一定对抛砖引玉而已。第一个里程碑式贡献 现代意义的人工智能技术研究发端于自然语言处理。对机器智能的痴迷与摸索由来已久1946年第一台通用计算机ENIAC面世无疑是一个历史分水岭。早在1947年时任美国洛克菲勒基金会自然科学部主任的 Warren Weaver在写给控制论之父维纳的一封信中就讨论了利用数字计算机翻译人类语言的可能性1949年他发布了著名的《翻译》备忘录正式提出机器翻译任务并设计了科学合理的发展路径其内容实际上涵盖了理性主义和经验主义两大研究范式。1951 年以色列哲学家、语言学家及数学家Yehoshua Bar-Hillel在麻省理工学院便开始了机器翻译研究。1954年Georgetown大学与IBM合作的机器翻译实验系统进行了公开演示。机器翻译是典型的认知任务显然属于人工智能领域。第二个里程碑式贡献自然语言处理在人工智能领域乃至整个计算机科学与技术领域较早提出并系统性践行了非结构化“大数据”理念整体上实现了理性主义研究范式向经验主义研究范式的嬗变。下面举两个典型工作。 一是连续语音识别。自上个世纪70年代中期开始著名学者Frederick Jelinek领导的IBM研发小组即提出了基于语料库n-gram语言模型实际上就是n阶马尔科夫模型的大词表连续语音识别方法使语音识别的性能上了一个大台阶。这个思路对语音识别领域产生了20年左右的深远影响甚至包括90年代推出的开创了机器翻译新格局的IBM统计机器翻译模型该模型使机器翻译研究回归到1949年Warren Weaver建议的经验主义研究范式下充分展示了他的先见之明。二是词性自动标注。1971年曾有学者精心设计过一个TAGGIT英语词性标注系统使用了3300条人工编制的上下文敏感规则在100万词次的布朗语料库上获得了 77%的标注正确率。1983—1987年间英国兰开斯特大学的一个研究小组另辟蹊径提出了不需要人工规则的数据驱动新方法利用已带有词性标记的布朗语料库构造了基于隐马尔科夫模型的CLAWS英语词性标注系统并对100万词次的LOB语料库进行词性自动标注正确率一举跃升到96%。第三个里程碑式贡献 当前这一波席卷全球的人工智能高潮肇始于自然语言处理。2009—2010年间著名学者Geoffrey Hinton与微软邓力博士合作率先提出了基于深层神经网络的语音识别方法使得语音识别的性能突破了近10年的瓶颈制约更上一层楼令学界初步体会到了深度学习的威力信心顿增一扫对深度学习框架半信半疑之状态其后各研究领域遂从者如云争先恐后如过江之鲫。2016年谷歌推出了深层神经网络机器翻译系统GNMT彻底终结了IBM统计机器翻译模型翻开了新篇章。基于深度学习的自然语言处理目前形成的基本态势自2010年以来深度学习异军突起日新月异强力推动了人工智能的全面发展。10年发展的结果是一方面深度学习使人工智能技术从几乎完全“不可用”走向了“可用”取得了历史性的非凡进步另一方面虽然它使得人工智能系统在几乎所有经典任务上的性能表现均得以明显提升但受囿于深度学习方法所存在的深刻短板在很多应用场景尚达不到“能用、管用、好用”。自然语言处理领域基本上也是这样本文不赘述。宏观上看人工智能领域的发展无例外地得益于两大类型的方法利器针对图像的卷积神经网络CNN以及针对自然语言文本的循环神经网络RNN。最初两三年前者风头尤劲近些年后者贡献更为卓著。若干影响深度学习全局的主要思想如注意力机制、自注意力机制、Transformer架构均出自后者。 基于深度学习的自然语言处理在短短10年中即完成了模型框架上的三次华丽迭代“从山阴道上行山川自相映发使人应接不暇”先后达至三重境界实际上这也是深度学习的三重境界。第一重境界 针对每个不同的自然语言处理任务独立准备一套人工标注数据集各自几乎从零开始常辅以word2vec 词向量训练一个该任务专属的神经网络模型。其特点我称之为“白手起家 各家自扫门前雪”。 第二重境界 首先基于大规模生语料库自学习、无监督地训练一个大规模预训练语言模型PLM然后针对每个不同的自然语言处理任务此时也称作下游任务独立准备一套人工标注数据集以PLM为共同支撑训练一个该下游任务专属的轻量级全连接前馈神经网络。在这个过程中PLM的参数会做适应性调整。其特点我称之为“预训练大模型大小联调”。 第三重境界 首先基于极大规模生语料库自学习、无监督地训练一个极大规模的PLM然后针对每个不同的自然语言处理下游任务以PLM为共同支撑通过少次学习few-shot learning或提示学习prompt learning等手段来完成该任务。在这个过程中PLM的参数不做调整实际上由于模型规模太过庞大下游任务也无力调整。其特点我称之为“预训练巨模型 一巨托众小”。 这三重境界 一重比一重来得深刻一重比一重有更多的“ 形而上” 感 觉。在GLUE和SuperGLUE公开评测集上的性能表现也是一重比一重要好目前正处于第三重。 近年来在世界范围内人工智能界各路英豪围绕预训练语言模型展开了巅峰对决模型规模急剧膨胀如 2020年6月OpenAI推出的GPT-3模型参数规模达1750亿个2021年10月微软和英伟达联合推出的MT-NLG 模型飙升到了5300亿个参数你争我夺你争我赶好不热闹。2021年8月斯坦福大学专门举办了两天的学术研讨会将第三重境界中的“预训练巨模型”命名为“基础模型”foundation model并随即发表了一篇数百页的长文全面阐述其观点。文中绘制了一张示意图见图1揭示了“基础模型”在智能信息处理的中枢作用其作用疆域已扩展至全数据类型和多模态。图 1 “基础模型”在智能信息处理的中枢作用对“基础模型”也有很多质疑的声音如图灵奖得主Judea Pearl就在推特上发问“‘基础模型’使得我们可以绕开以数据为中心的方法的理论局限性的科学原理是什么呢”(What is the scientific principle by which‘Foundation models’can circumvent the theoretical limitations of data-centric methods as we know them…?) 但无论如何“基础模型”作为智能信息处理公共基础“软”设施的重要地位似已可以基本成立。第一重境界好比各家在海拔几乎为零的沙滩上盖房子只能自家打好自家的地基一砖一瓦自己盖起来很是辛苦效率也就比较低第二重境界则是搭建了一个海拔二三十米的共同台面各家都在这个台面上盖房子自己打地基的工作大体可以省掉效率大为提升但由于台面还不够高基础不一定处处可靠所以各家盖房子时还要照顾到台面情况适当夯实、调整一下台面第三重境界把公共平台建到了二三百米地基很牢固台面高了即使简单搭个小凉亭登高望远风景也会不错各家盖房子需要操心的因素自然就更少了许多效率得以进一步提升。这是我对“基础模型”定位的一种形象解释。我们不妨以参数规模达千亿个的百度文心NLP大模型https://wenxin.baidu.com/wenxin/ernie 为例初步体验一下大模型。首先简单考察其“自由创作”功能。随意输入如下一段话让机器续写沿着曲径一路走去未见 机器续写的句子相当精彩 到一个人只有几株高大的银杏树和一些不知名的花朵在阳光下灿烂地开放偶尔还能够见到两只小鸟。还是那句输入让机器再续写一段 任何人烟却有一个小山村静谧地伫立在那里。这就是位于大兴区榆垡镇的后石坞乡前石坞村全村共300户左右、800多口人。如今农村已经成为许多家庭主要的生活来源之一了。现在我们不仅吃穿住都好还能看到很多漂亮精彩的节目这段话虽然通顺但文字发展脉络已经有些奇了。再考察其“自由问答”功能。提问山东哪一座山最高机器回答 泰山。换个问法儿再问机器 山东最高的山是哪座 机器回答 泰山 考虑到这是生成式回答机器能做到这一点相当不错。但同样的问题多问机器几次机器就“蒙圈”了胡乱回答 青岛的崂山。这个不用想五莲山海拔1095米济南 可见大模型有比较广博的知识能力但博而不精严重缺乏自知之明。所以很容易在语义逻辑上被“攻击”或者“为难”。掉过头来再考察一下其“自由创作”功能。输入 沿着人来人往的曲径一路走去未见 机器续写 一个行人只有几盏灯笼照着地上的影子。 输入 沿着人满为患的曲径一路走去未见 机器续写 任何一个人这里是否有着另外的生命存在沿途所见皆为枯死之树和倒伏的草木。而他们却不曾注意到身后那片绿意盎然的山谷“好美啊 ~”她轻盈跳跃在空中看向下方正在忙碌的众人道了声赞叹。听闻此言时莫云殇也停止了手上的活计转头望去只见远处的林间开满了由上述几个例子可以看出大模型有明显的长处但也存在明显的短处。它就是一个有一定海拔高度的台面在上面可以比较便利地盖房子但它并不意味着房子已经盖好。其实要在其上盖起一座真正“能用、管用、好用”的房子还是需要下大气力的。第三重境界带来的困惑与思考自然语言处理今后若干年的主要挑战我认为 , 自然语言处理在今后若干年主要面临两大挑战。第一个挑战力大者为王 这是顺着目前形成的基本态势也就是“基础模型”自然向前延伸的。虽然这一路依然在高歌猛进但“基础模型”本身显然不能解决深层次语义问题换言之它注定不能直接导致通用人工智能虽然它肯定会是设想中的通用人工智能的一个基础部件。那么一个自然而然的问题就产生了这种追求规模数据、模型、算力极致化的策略还能走多远连带的另一个问题是我们应该做些什么 我想可以从“基础模型”的开发性exploitation和探索性exploration两个角度予以回答。 开发性exploitation更多注重“基础模型”的工程性有如下几点应予注意。●目前构造及使用“基础模型”的算法本身还是偏粗放型的。前文给出的百度文心 NLP 大模型表现的一些“毛病”可望通过积极改进算法部分地予以解决。●对少次学习、提示学习、基于适配器的学习adapter-based learning等与“基础模型”配套的新手段的研发工作应予加强。●训练数据包罗万象一定就好吗是否应对大数据中明显存在着的大量噪声进行筛选●排行榜对模型研发无疑非常重要。但排行榜不是唯一的金标准应用才是最终的金标准。●研发“基础模型”的企业不能“王婆卖瓜自卖自夸”要开放给学术界测试。不开放给学术界测试的“基础模型”其性能是存疑的。学术界不宜盲信盲从。●“基础模型”亟需找到杀手级应用才能令人信服地证明自己的能力。探索性exploration则更多注重“基础模型”的科学性。鉴于“基础模型”确实呈现出了一些令人惊奇或者“奇怪”的现象目前尚未给出科学的解释。典型如●为什么大规模预训练语言模型会出现deep double descent现象 ( 这一点似乎超越了机器学习中“数据复杂度与模型复杂度应基本匹配”的金科玉律 ) ●为什么“基础模型”具有少次学习甚至零次学习的能力这些能力是怎么获得的其中是否出现了复杂巨系统的涌现现象●为什么提示学习能奏效这是否暗示“基础模型”内部可能自发地产生了若干功能分区而一个个提示学习恰好提供了启用一个个功能分区的钥匙●如果是这样功能分区的分布可能是怎样的由于“基础模型”的核心训练算法极其简单语言模型或完形填空模型这又隐含着什么深意我个人认为对“基础模型”科学意义的探索也许大于其工程意义。如果其中确乎蕴涵着上述一二玄机那么这将对人工智能模型的全新发展具有深刻的启迪性“基础模型”也会出现“山重水复疑无路、柳暗花明又一村”的全新气象。此外对脑科学、认知神经科学研究也可能富有启发性。第二个挑战智深者为上这是人工智能的“初心”和永恒梦想与第一个挑战的思路相去甚远但其必要性毋庸置疑。这里举例说明。前文提及的机器翻译先行者Yehoshua Bar-Hillel1960年发表了一篇长文《语言自动翻译的现状》对机器翻译的前景进行了展望。文中他举了一个对人来说易如反掌但对机器翻译来说异常棘手的一个句子注意其中的 The box was in the penLittle John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. 其中pen有两个意思“钢笔”和“围栏”。要正确地翻译成“围栏”, 机器需要明白介词in的意思同时具备相关的世界知识。我们把这个简单的英文句子送给用深层神经网络和大数据武装到牙齿的机器翻译系统。谷歌翻译结果盒子在笔里。 百度翻译结果盒子在钢笔里。60多年过去了还是没搞定。可喜的是在“力大者为王”波澜壮阔、摧枯拉朽的大势下一批学者仍在坚持并积极倡导小数据、富知识、因果推理等“智深者为上”的下一代人工智能发展理念。不过目前研究进展不大。这条道路上有两个难以逾越的“拦路虎”。 一是形式化常识库和世界知识库依然严重缺乏。Wikidata之类的知识图谱貌似规模庞大但如果稍微审视一下就会发现它所覆盖的知识范围仍然十分有限。事实上Wikidata存在明显的构成性缺失多是关于实体的静态属性知识关于动作、行为、状态以及事件逻辑关系的形式化描写则几乎没有。这就使得它的作用域严重受限实际效能大打折扣。 二是系统性获取“动作、行为、状态以及事件逻辑关系”之类形式化知识的能力依然严重缺失。对开放式文本如 Wikipedia 文本进行大规模句法语义分析是必由之路。但很可惜目前这个句法语义能力还不太具备虽然近年来借助深度学习方法已经有了长足进步。 这两个“拦路虎”必须想办法解决。否则巧妇难为无米之炊这条路不易走通。 上述两大挑战其实也是整个人工智能领域所必须面对的。结束语自然语言处理一路走来至今日形成了“力大者为王”和“智深者为上”两条道路。前者道路宽广顺风而下但貌似快走到尽头后者道路狭窄逆风而上但应该会悠长隽永。前看两者可以并行不悖互相借鉴互为支持如“基础模型”可望有效提升大规模句法语义自动分析的能力从而为大规模知识自动获取提供前提条件。“基础模型”可能包藏了某些深邃的计算机理或奥秘或导致大的“峰回路转”值得密切关注。未来 10 年自然语言处理在研究和应用上整体上创造一个恢弘格局并对人工智能领域的发展做出关键性贡献是可以期待的。参考文献略未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”