做网站推广托管注意,wordpress文章标题字体,企业管理系统说明,id设计人工智能#xff08;AI#xff09;旨在打造模仿智能行为的系统。它覆盖了众多方法#xff0c;涵盖了基于逻辑、搜索和概率推理的技术。机器学习是 AI 的一个分支#xff0c;它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展#xff0c;现在几乎AI旨在打造模仿智能行为的系统。它覆盖了众多方法涵盖了基于逻辑、搜索和概率推理的技术。机器学习是 AI 的一个分支它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展现在几乎虽不完全准确与 AI 同义。 深度神经网络是一类机器学习模型将其应用到数据上的过程称为深度学习。目前深度网络是最强大和最实用的机器学习模型之一常见于日常生活中。我们常常用自然语言处理Natural Language Processing算法翻译文本、用计算机视觉Computer Vision系统搜索特定对象的图片或通过语音识别Speech Recognition界面与数字助理交谈这些都是深度学习的实际应用。 机器学习方法大体上分为三大类监督学习Supervised Learning、无监督学习Unsupervised Learning和强化学习Reinforcement Learning。目前这三大类的前沿方法均依赖于深度学习见图 1.1。 图 1.1 机器学习是人工智能的一个分支它专注于将数学模型应用于观测数据。它主要分为三个类别监督学习、非监督学习和强化学习。深度神经网络在这三个领域中均发挥着重要作用。 1.1 监督学习 监督学习模型建立了一种从输入数据到输出预测的关系。在后续几节中我们会详细探讨输入、输出、模型本身以及“训练”模型所指的含义。 1.1.1 回归和分类问题 图 1.2 回归和分类问题。a这个回归模型使用描述房产特征的数字向量来预测其价格。b这个多变量回归模型以化学分子的结构为输入预测其熔点和沸点。c这个二元分类模型接收餐厅评论并将其划分为正面或负面。d这个多类别分类问题将一段音频片段归类为 N 种音乐类型中的一种。e第二个多类别分类问题中模型根据图片可能包含的 N 种物体之一来分类图片。 图 1.2 展示了几个回归和分类问题的例子。在每个例子中都有一个与现实世界相关的输入如一个句子、一段声音文件、一幅图片等这些输入被转换成数字向量。这个向量就是模型的输入。模型把这个输入映射到一个输出向量随后这个输出向量被再次转换变成一个具有现实意义的预测。目前我们主要关注输入和输出并把模型当作一个黑盒子它接受一个数字向量并输出另一个数字向量。 图 1.2a 中的模型基于如房屋的平方米数和卧室数量等输入特征来预测房价。这是一个回归问题因为模型返回的是一个连续数值而非某个类别。而图 1.2b 中的模型则以分子的化学结构为输入预测其熔点和沸点。由于预测了多个数值这是一个多变量回归问题。 图 1.2c 中的模型接收包含餐厅评论的文本字符串作为输入并预测评论是正面的还是负面的。这是一个二元分类问题因为模型试图将输入分配到两个不同的类别中。输出向量包含输入属于每个类别的概率。图 1.2d 和 1.2e 则展示了多类别分类问题。在这里模型将输入分配到多于两个的类别中。第一个例子中输入是一个音频文件模型预测它包含的音乐类型。第二个例子中输入是一幅图片模型预测图片中包含的对象。在这些例子中模型均返回一个包含各类别概率的大小为 N 的向量。 1.1.2 输入 图 1.2 中的输入数据类型各异。在房价预测例子中输入是一个固定长度的向量包含了描述房产特征的值。这是一种表格数据它没有内在结构如果我们改变输入值的顺序再构建一个新模型预期模型的预测结果不会改变。 另一方面在餐厅评论的例子中输入是一段文本。这可能根据评论中的单词数而长度不同且输入顺序很重要例如“我的妻子吃了鸡肉”与“鸡肉吃了我的妻子”意义截然不同。在传递给模型之前文本必须被编码为数字形式。这里我们使用一个包含 10,000 个词的固定词汇表并将单词索引简单拼接起来。 在音乐分类的例子中输入向量可能是固定大小的比如 10 秒音频片段但其维度非常高。数字音频通常以 44.1 kHz 采样并以 16 位整数表示因此一个 10 秒的音频片段包含 441,000 个整数。显然监督学习模型必须能够处理大量输入。图像分类例子中的输入由每个像素的 RGB 值串联起来的也非常庞大。而且它的结构本质上是二维的即使在输入向量中不相邻上下相邻的两个像素也紧密相关。 最后考虑预测分子熔点和沸点的模型的输入。一个分子可能包含不同数量且连接方式各异的原子。在这种情况下模型需要同时考虑分子的几何结构和组成原子。 1.1.3 机器学习模型 图 1.3 机器学习模型。该模型表示一系列关系将输入儿童年龄与输出儿童身高联系起来。通过训练数据橙色点包括输入/输出对来选定具体的关系。在训练模型过程中我们寻找能够很好描述数据的关系。这里经过训练的模型是青色曲线可以用来计算任何年龄的儿童身高。 到目前为止我们把机器学习模型当作一个黑盒子它接受输入向量并返回输出向量。但这个黑盒子里面究竟是什么呢考虑一个根据孩子年龄来预测身高的模型见图 1.3。机器学习模型其实是一个数学方程描述了平均身高如何随年龄变化图 1.3 中的青色曲线。当我们把年龄输入这个方程它就会返回相应的身高。例如如果年龄是 10 岁我们预测身高为 139 厘米。 更精确地说这个模型代表了一系列方程用于将输入映射到输出即不同的青色曲线。特定的方程曲线是根据训练数据输入和输出对的示例来选择的。在图 1.3 中这些对由橙色点表示我们可以看到模型青色线条合理地描述了这些数据。当我们谈到训练或拟合一个模型时我们的意思是在可能的方程青色曲线中寻找一个最能准确描述训练数据的关系。 因此图 1.2 中的模型需要标记好的输入/输出对来进行训练。例如音乐分类模型需要大量音频片段这些片段已由人类专家确定了各自的音乐类型。这些输入/输出对在训练过程中起到了教师或监督者的作用这就是“监督学习”这个术语的由来。 1.1.4 深度神经网络 深度神经网络是一种特别有效的机器学习模型。它们是方程能够代表输入和输出之间极其广泛的关系并且在这些关系中寻找描述训练数据的关系特别容易。 深度神经网络可以处理非常大、变化多端的输入并且能够包含各种内部结构。它们能输出单个实数回归、多个数值多变量回归或两个或更多类别的概率分别对应二元和多类别分类。正如我们在下一节中将看到的它们的输出也可能非常大、变长并且包含内部结构。想象具有这些特性的方程可能很困难读者应努力暂时搁置怀疑。 1.1.5 结构化输出 图1.4 具有结构化输出的监督学习任务。a) 这个语义分割模型把 RGB 图像映射到一个二元图像用于指示每个像素是属于背景还是牛改编自 Noh 等人2015年。b) 这个单目深度估计模型将 RGB 图像映射到一个输出图像每个像素代表深度改编自 Cordts 等人2016年。c) 这个音频转录模型将音频样本映射到音频中所说话语的文字转录。d) 这个翻译模型将英语文本字符串映射到其对应的法语翻译。e) 这个图像合成模型将文字描述映射到一幅图像示例来自 https://openai.com/dall-e-2/ 。在每个案例中输出都具有复杂的内部结构或语法。在某些情况下与输入相兼容的输出可能有多个。 图 1.4a 展示了一个用于语义分割的多变量二元分类模型。在这里输入图像的每个像素都被分配一个二元标签指示它是属于牛还是背景。图 1.4b 展示了一个多变量回归模型输入是街景图像输出是每个像素的深度。在这两种情况下输出都是高维且有结构的。然而这种结构与输入紧密相关可以被利用如果一个像素被标记为“牛”那么具有相似 RGB 值的邻近像素可能有相同的标签。 图 1.4c-e 描述了三个输出具有与输入不太紧密相关的复杂结构的模型。图 1.4c 展示了一个模型输入是音频文件输出是文件中的转录词。图 1.4d 是一个翻译模型输入是英文文本输出是法文翻译。图 1.4e 描述了一个极具挑战性的任务输入是描述性文本模型需要生成与这个描述匹配的图像。 原则上这三个后续任务可以在标准监督学习框架下解决但它们更为困难原因有二。首先输出可能确实模糊不清从英语到法语有多种有效翻译任何描述都可能对应多种图像。其次输出包含大量结构并非所有单词串都能构成有效的英语和法语句子也不是所有 RGB 值的组合都能构成合理的图像。除了学习映射我们还必须遵循输出的“语法”。 幸运的是这种“语法”可以在不需要输出标签的情况下学习。例如我们可以通过学习大量文本数据的统计信息来学习构建有效的英语句子。这为无监督学习模型部分提供了一个联系。 1.2 无监督学习 从没有对应输出标签的输入数据中构建模型被称为无监督学习缺乏输出标签意味着不存在“监督”。无监督学习的目标不是学习输入到输出的映射而是描述或理解数据的结构。就像监督学习一样数据可能具有非常不同的特点它可能是离散或连续的低维或高维的长度固定或变化的。 1.2.1 生成式模型 生成式无监督模型这类模型学习如何合成新的数据实例使其在统计上与训练数据难以区分。一些生成式模型明确描述了输入数据的概率分布并通过从这个分布中抽样来生成新实例。其他模型则仅学习生成新实例的机制而不直接描述其分布。 图1.5 图像生成式模型。左图两幅图像由训练有素的猫图模型生成。这些不是真正的猫而是概率模型生成的样本。右图两幅图像由专门训练的建筑图模型生成。改编自 Karras 等人 (2020b)。 当我到达森林边缘时月亮已经升起树木间筛下的光线银白而冷冽。我不由自主地颤抖起来虽然我并不觉得冷我加快了脚步。我从未离开过村庄这么远对于接下来会发生什么我心中毫无底。我已经走了数小时感到疲惫和饥饿。我匆忙出发连食物都没带更别提武器了。在这个陌生的地方我手无寸铁孤身一人不知所措。我走了这么长时间以至于完全失去了时间感。我不知道自己究竟走了多远我只知道我必须继续前进。我必须找到她。我感觉我已经很接近了。她就在附近而且她正处于危险之中。我必须找到她并在一切为时已晚之前救助她。图1.6 文本数据生成式模型合成的短篇故事。该模型描述了一个为每个输出字符串分配概率的概率分布。通过从模型中抽样可以创造出遵循训练数据这里是短篇故事统计特性的字符串这些字符串之前从未出现过。 图1.7 图像修复。原始图像左图中男孩被金属缆绳遮挡。不需要的区域中图被移除生成式模型在其余像素保持不变的约束下合成了新图像右图。改编自 Saharia 等人 (2022a)。 在巴斯大学进行的第一场讲座前我有些紧张。教室里坐满了看似成百上千的学生他们的目光让人畏惧。我走上讲台刚要开口却发生了一件奇怪的事情。突然教室里回荡着震耳欲聋的噪声宛如巨兽的咆哮。声音太大了我不得不捂住耳朵什么都听不见了。我看到学生们惊慌失措地四处张望。然而就像它来得那么突然噪声又迅速消失教室恢复了寂静。我愣在那里试图弄清楚刚才发生了什么。然后我意识到所有学生都在等着我说话。我本想说些风趣或聪明的话但脑海一片空白。于是我只好说“嗯那真奇怪”接着开始我的讲座。图1.8 条件性文本合成。给定一段初始文本第一段文本生成式模型可以通过合成“缺失”的剩余部分来合理地继续这段文字。由 GPT3 生成Brown 等人2020。 最先进的生成式模型能够合成极为逼真但与训练实例不同的实例。它们在生成图像见图 1.5和文本见图 1.6方面特别成功。这些模型还可以在某些输出预先确定的约束下合成数据称为条件生成。例如包括图像修复见图 1.7和文本补全见图 1.8在内的应用。事实上现代文本生成模型非常强大以至于它们看起来几乎具有智能。给定一段文本后接一个问题模型通常能通过生成文档最可能的补全来“填补”缺失的答案。然而实际上模型只了解语言的统计特性并不真正理解其答案的含义。 1.2.2 潜变量 一些生成式模型但不是所有利用了这样一个观点数据的维度可以比原始观测变量的数量更小。例如有效且有意义的英语句子的数量远少于随机组合单词形成的字符串数量。同样真实世界的图像只占通过随机赋予每个像素 RGB 值能创建的图像的一小部分。这是因为图像是由物理过程生成的见图 1.9。 图1.9 人脸的变化。人脸大约包含 42 块肌肉因此可以用大约 42 个数字来描述同一个人在相同光照条件下的图像中的大部分变化。一般而言图像、音乐和文本的数据集可以用相对较少的潜在变量来描述尽管通常更难将这些变量与特定的物理机制联系起来。图像来自 Dynamic FACES 数据库Holland 等人2019。 这就引出了一个想法即我们可以使用较少的潜在变量来描述每个数据实例。在这里深度学习的作用是描述这些潜变量与数据之间的映射关系。这些潜变量通常被设计为具有简单的概率分布。通过从这个分布中抽样并将结果通过深度学习模型传递我们可以创造新的样本见图 1.10。 图1.10 潜变量。潜变量在许多生成模型中扮演关键角色这些模型利用深度学习来揭示低维潜变量与观测到的高维数据之间的联系。潜变量按设计拥有简易的概率分布。因此通过从这些潜变量的简单分布中采样再利用深度学习模型将采样结果映射到观测数据空间我们便能创造出新的样本。 这些模型为操纵真实数据提供了新的方法。例如考虑找出支持两个真实实例的潜变量。我们可以通过在它们的潜在表示之间插值并将中间位置映射回数据空间从而在这些实例之间进行插值见图 1.11。 图1.11 图像插值。图像插值是一种有趣的应用。在每一行的图像中左右两侧为真实图像中间三张则是生成模型创造的插值序列。这些生成模型学习到了所有图像均可通过一组潜在变量来生成的原理。通过确定这两张真实图像的潜变量对它们的值进行插值然后用这些中间变量生成新图像我们能创造出既视觉上合理又融合了两张原始图像特征的中间图像。上排图片改编自 Sauer 等人 (2022)下排图片改编自 Ramesh 等人 (2022)。 1.2.3 结合监督学习与无监督学习 具有潜变量的生成式模型也可以促进输出具有结构的监督学习模型的发展见图 1.4。例如考虑学习如何预测与描述相对应的图像。我们可以学习文本的潜变量与图像的潜变量之间的关系而不是直接将文本输入映射到图像上。 这种方法有三个优点。首先由于输入和输出维度较低我们可能需要更少的文本/图像对来学习这种映射。其次我们更有可能生成看起来合理的图像潜变量的任何合理值都应该产生像是一个可信的示例。第三如果我们在两组潜变量之间的映射或潜变量到图像的映射中引入随机性那么我们可以生成多个都与描述相匹配的图像见图 1.12。 图1.12 从“时代广场上的滑板泰迪熊”这个标题出发DALL·E-2Ramesh 等人2022生成了多张图片。 1.3 强化学习 机器学习的最后一个领域是强化学习。这个范畴引入了代理agent的概念代理生活在一个世界中在每个时间步骤中可以执行特定行动。行动会改变系统的状态但这种改变不一定是确定性的。执行行动还可能产生奖励强化学习的目标是让代理学会选择能够平均获得高奖励的行动。 一个复杂点是奖励可能在行动后一段时间才出现因此把奖励与特定行动关联起来并不直接。这被称为时间性信用分配问题。在学习过程中代理必须在探索寻找新的可能性和利用使用已知的策略之间做出平衡也许代理已经学会了如何获得适度的奖励它应该继续遵循这个策略利用现有知识还是尝试不同的行动以寻找改进的机会探索新的可能性 1.3.1 两个例子 考虑教一个类人机器人如何行走。机器人在特定时间可以执行有限的行动如移动各种关节这些行动会改变世界的状态即它的姿态。我们可以通过设立障碍赛道上的检查点来奖励机器人。为了到达每个检查点它必须执行许多行动但当收到奖励时很难确定哪些行动对奖励有贡献哪些是无关紧要的。这就是时间性信用分配问题的一个实例。 第二个例子是学习下棋。同样代理在任何时刻都有一组有效的行动棋子移动。然而这些行动以非确定性的方式改变系统状态对于任何行动选择对手可能以多种不同的方式回应。这里我们可以根据捕获棋子来设定奖励结构或者在游戏结束时赢得比赛来获得单一奖励。在后者情况下时间性信用分配问题非常严重系统必须学习在众多走法中哪些是成功或失败的关键。 探索与利用的权衡在这两个例子中也很明显。机器人可能已经发现通过侧躺并用一条腿推动可以前进。这种策略虽然能让机器人移动并获得奖励但比最优解——站立行走——要慢得多。因此它面临一个选择是利用已知的策略沿地面滑行还是探索其他可能的行动可能实现更快的移动。在下棋例子中也是如此代理可能学到了一系列合理的开局走法。它应该利用这些知识还是探索不同的开局序列 深度学习如何融入强化学习框架可能不那么明显。有几种可能的方法其中一种是使用深度网络构建从观察到的世界状态到行动的映射。这被称为策略网络。在机器人的例子中策略网络会学习从传感器测量到关节运动的映射。在下棋的例子中网络将学习从棋盘的当前状态到走法选择的映射见图 1.13。 图1.13 在强化学习中使用策略网络是一种创新。通过深度神经网络我们可以定义从状态例如棋盘上的位置到动作可能的移动的映射。这种映射即为所谓的“策略”。