网站推广合同模板,网站开发属于哪个大学专业,wordpress category.php制作,icp备案网站建设方案书目录
1、人工智能基础概念全景介绍... 2
1.1 人工智能全景图... 2
1.2 人工智能历史... 2
1.3 人工智能——机器学习... 3
监督学习、非监督学习、强化学习、机器学习之间的关系... 3
监督学习... 4
无监督学习... 5
强化学习... 5
深度学习... 6
2、语言模型的发展及…目录
1、人工智能基础概念全景介绍... 2
1.1 人工智能全景图... 2
1.2 人工智能历史... 2
1.3 人工智能——机器学习... 3
监督学习、非监督学习、强化学习、机器学习之间的关系... 3
监督学习... 4
无监督学习... 5
强化学习... 5
深度学习... 6
2、语言模型的发展及核心算法... 8
2.1 大模型发展格局、大模型直观功能展示... 8
2.2 大模型之“大”——数据量大... 9
2.3 大模型之“通用” 10
2.4 大模型之“最大功臣”Transformer 10
3、Transformer内部发生着什么... 13
3.1 Transformer第一步数据预处理... 13
3.2 Transformer第二步编码器... 13
3.3 Transformer第三步解码器... 14
3.4 Transformer第四步 Linear层和Softmax层... 15
4、类Chatgpt产品的诞生之路... 16
4.1 大语言模型诞生的全过程... 16
4.2 无监督学习—基座大模型... 17
4.3 有监督学习—可对话... 17
4.4 有监督学习—奖励模型... 18
4.5 强化学习—提升模型回复质量... 18 1.人工智能基础概念全景介绍
1.1 人工智能全景图 1.2 人工智能历史
●人工智能的提出——达特茅斯会议
1956年的达特茅斯会议正式确立了“人工智能”这一-领域。1956年夏麦卡锡说服克劳德:香农(信息论的发明者)、内森尼尔罗切斯特(电气工程先驱)和马文明斯基参与他提出的一个人工智能研究项目这个项目为期2个月。项目在达特茅斯组织了研讨会约翰 麦卡锡(John Mc-Carthy)在组织会议的过程中提出人工智能一-词推动了人工智能作为一个独立学科的形成。 1.3 人工智能——机器学习 概念让计算机通过大量数据,自行识别模型总结规律
监督学习、非监督学习、强化学习、机器学习之间的关系
监督学习、非监督学习、强化学习和机器学习是机器学习领域的几个重要概念它们之间的关系密切而复杂。
首先机器学习是一个更为广泛的概念它涵盖了所有使用算法和统计模型来让计算机系统从数据中“学习”并改进其性能的技术。机器学习算法可以自动地从数据中提取特征和模式并基于这些特征和模式进行预测或决策。
监督学习是机器学习的一种形式它使用带有标签的数据集进行训练。在监督学习中模型通过学习输入特征和对应标签之间的关系从而能够预测新数据的标签。监督学习广泛应用于分类、回归等任务如图像识别、语音识别等。
非监督学习是另一种机器学习形式与监督学习不同非监督学习的数据集没有标签。非监督学习算法通过对数据进行聚类、降维等操作发现数据中的内在结构和模式。这种方法常用于数据探索、异常检测等任务。
强化学习是机器学习的另一种形式它关注于智能体如何在与环境的交互中学习最佳行为策略。在强化学习中智能体通过尝试不同的行动并观察结果奖励或惩罚来学习目标是最大化累积奖励。强化学习在游戏AI、机器人控制等领域有广泛应用。 监督学习
监督学习是机器学习中的一种重要方法其利用一组已知类别的样本来调整算法的参数以达到所要求的性能。这一过程也称为监督训练或有教师学习。在监督学习中每个实例都由一个输入对象如矢量和一个期望的输出值也称为监督信号组成。学习算法通过分析这些训练数据能够产生一个推断功能用于映射出新的实例。
监督学习的核心在于从标记的训练数据中推断一个功能。训练数据包括一套训练示例这些示例的输入和输出都是已知的。学习算法的任务就是通过分析这些示例找到一个模型或函数能够准确地映射新的输入到相应的输出。 无监督学习
无监督学习是机器学习领域内的一种重要学习方式。与监督学习不同无监督学习在训练过程中使用的数据没有明确的标签或结果。它主要是从大量无标签的数据中发现隐藏的结构或模式。 强化学习
强化学习是机器学习中的一个重要领域它主要关注智能体如何在一个复杂且不确定的环境中通过不断试错来最大化其获得的奖励。强化学习的灵感来源于心理学中的行为主义理论即有机体如何根据环境给予的奖励或惩罚来调整其行为。
在强化学习的框架中智能体agent通过与环境的交互来学习策略。智能体首先获取环境的当前状态并根据这个状态选择一个动作决策。执行这个动作后环境会进入一个新的状态并给智能体一个奖励值作为反馈。智能体的目标是通过不断尝试和调整策略以最大化累积的奖励。
强化学习的一个显著特点是延迟奖励即当前所做的动作可能很多步之后才会产生相应的结果和奖励。因此智能体需要具备记忆和规划能力以处理这种延迟效应。
强化学习可以分为基于模式的强化学习model-based RL和无模式强化学习model-free RL以及主动强化学习active RL和被动强化学习passive RL。此外深度强化学习是强化学习与深度学习的结合通过深度神经网络来近似强化学习中的值函数或策略函数从而处理高维状态空间和动作空间的问题。 深度学习 答案每一类都有深度学习的对应实现故而都可以包含 深度学习是机器学习领域中一个新的研究方向可以理解为“深度”和“学习”这两个名词的组合。
“深度”体现在神经网络的层数上一般来说神经网络的层数越多也就是越深则学习效果越好。而“学习”体现为神经网络可以通过不断地输入数据来自动校正权重偏置等参数以拟合更好的学习效果。
深度学习是一个复杂的机器学习算法它是以人工神经网络为架构对数据进行特征学习的算法。在特征提取方面深度学习没有复杂的人工特征提取过程特征提取过程可以通过深度神经网络自动完成。此外深度学习需要大量的训练数据集并需要强大的算力支持。
深度学习最典型最广泛的应用就是图像识别此外还可以应用于语音、自然语言等领域。现在主流的深度学习框架有TensorFlow、Keras、Caffe、PyTorch等。 生成式AI是一种特定类型的AI专注于生成新内容如文本、图像和音乐。这些系统在大型数据集上进行训练并使用机器学习算法生成与训练数据相似的新内容。生成式AI在创意、设计、娱乐等领域展现出强大的潜力可以广泛应用于创建艺术、音乐和聊天机器人生成文本等场景。 2.语言模型的发展及核心算法
2.1 大模型发展格局、大模型直观功能展示 2.2 大模型之“大”——数据量大
训练数据巨大意味着模型可以从海量的数据中提取丰富的信息。这些数据涵盖了各种不同的场景、情境和实例为模型提供了广泛的上下文和多样化的经验。通过大量的数据训练模型能够学习到更多的特征和模式从而提高其泛化能力和准确性。这使得大模型在处理复杂的自然语言处理、图像识别、语音识别等任务时表现出色。
参数量巨大使得模型具有更高的灵活性和表示能力。每个参数都代表了模型在训练过程中对数据的某种理解和表示。参数量越大模型就越能够捕捉到数据中的细微差别和复杂关系。这使得大模型能够更好地适应各种变化并在细节上进行微调以提升性能。此外大模型通常使用深层的神经网络结构每一层都包含大量的参数这使得模型能够逐层提取和抽象特征从而构建出更加复杂和精确的模型。 2.3 大模型之“通用” 2.4 大模型之“最大功臣”Transformer
Transformer是一个基于自注意力self-attention机制的神经网络结构它最初是为自然语言处理NLP任务而设计的但随后也被应用于其他领域如计算机视觉和语音识别。Transformer模型的主要特点是能够捕捉输入序列中的长距离依赖关系并且能够有效地并行化计算从而提高了模型的训练效率和性能。 在大模型如Transformer之前循环神经网络Recurrent Neural Networks简称RNN是处理序列数据的主要神经网络结构。RNN特别适用于处理具有时间依赖性的数据例如文本、语音等。
RNN的基本思想是在网络中引入循环机制使得模型能够记住之前的信息。在每个时间步RNN接收当前的输入并更新其内部状态然后将这个状态传递给下一个时间步。这样RNN就能够捕捉序列中的长期依赖关系。
然而RNN在处理长序列时存在一些局限性。由于RNN在传播信息时是通过逐个时间步进行的这导致了梯度消失或梯度爆炸的问题。当序列很长时RNN很难有效地捕捉到早期的信息这限制了其在处理长序列数据时的性能。
此外RNN在处理复杂任务时其表达能力也受到一定限制。尽管可以通过堆叠多个RNN层来增加模型的深度但这也会增加计算的复杂性和训练的难度 自注意力机制是Transformer模型的核心它通过计算输入序列中每个位置与其他位置之间的相似度得分来生成一个注意力权重矩阵。这个矩阵描述了不同位置之间的相对重要性使得模型能够关注到输入序列中的关键信息。通过自注意力机制Transformer模型能够捕捉到序列中的长距离依赖关系克服了传统循环神经网络RNN在处理长序列时面临的梯度消失和计算效率低下的问题。 大模型中的位置编码Positional Encoding是其显著优势之一尤其在处理序列数据时表现得尤为突出。位置编码解决了模型在处理序列信息时无法有效识别位置顺序的问题从而增强了模型对序列数据的理解和处理能力。
在自然语言处理NLP等任务中序列中单词的位置信息往往至关重要。例如在句子“我喜欢吃苹果”中单词“喜欢”和“吃”的位置决定了它们之间的关系和整个句子的含义。如果模型无法区分这些位置信息那么它将很难准确理解句子的含义。
位置编码通过为序列中的每个位置分配一个独特的向量表示帮助模型捕捉位置信息。这些向量表示可以与单词嵌入word embeddings相结合作为模型的输入。这样模型在处理序列数据时不仅能够理解单词的语义信息还能够考虑到单词的位置信息从而更准确地捕捉序列的整体含义。 3.Transformer内部发生着什么
3.1 Transformer第一步数据预处理
在使用Transformer模型进行自然语言处理任务如机器翻译、文本摘要、情感分析等时数据预处理是第一步也是非常重要的一步。数据预处理涉及将原始文本数据转换为模型可以理解和处理的格式。以下是Transformer模型数据预处理的主要步骤
分词Tokenization
将文本拆分为单词或子词subword单元这些单元称为tokens。
对于英文通常使用空格作为分隔符对于中文可能需要使用特定的分词工具。
Transformer模型如BERT、GPT等通常使用基于字节对编码Byte Pair Encoding, BPE或WordPiece的分词方法。
编码Embedding
将每个token转换为一个数值向量即嵌入向量embedding vector。
通常使用预训练的词嵌入如Word2Vec、GloVe或模型自带的嵌入层。
对于新的或未登录词OOV可以使用特殊标记如UNK或子词嵌入。
位置编码Positional Encoding:
在Transformer模型中扮演着至关重要的角色。Transformer模型本身具有置换不变性permutation invariant这意味着输入序列的顺序变化不会影响模型的输出结果。然而在自然语言处理任务中序列中单词的位置信息通常是至关重要的。为了解决这个问题Transformer模型引入了位置编码。 3.2 Transformer第二步编码器
进入编码器自注意力机制发挥作用
1、关联词与其他所有词:首先计算句子中每个词与其他所有词之间的相关性得分。这些得分反映了词与词之间的关联程度可以用于确定哪些词在当前上下文下更加重要。
2、权重赋予:关性得分被转化为权重用于调整每个词的表示。权重高的词将获得更大的关注而权重低的词则相对被忽略。
2、权重加权:使用这些权重对输入序列中每个位置的嵌入向量进行加权求和得到一个新的表示向量。 3.3 Transformer第三步解码器
解码器接收:
编码器的输出上一轮文本的输入
不同之处:当编码器在处理各个词的时候会关注输入序列里所有其他词。在解码器中自注意力只会关注这个词他前面的其他词确保生成过程的顺序性和正确性。 3.4 Transformer第四步 Linear层和Softmax层
输入到Linear层和Softmax层
1、Linear层: 将输入的向量映射到一个更大的logits向量上。logits向量的长度通常与词汇表的大小-致假设输出词汇为0000则Logits向量的输 出也为10000每-一个向量上的
数字对应一个词汇。
2、Softmax层: softmax层 将Logits向量中的每-个数字都转换成0到1之间的概率值这些概率值表示对应词汇在当前位置被选择的概率并且所有位置的概率之和为1。最终得到每个可能token的概 4.类Chatgpt产品的诞生之路
4.1 大语言模型诞生的全过程 首先通过无监督学习得到基座大模型然后再通过有监督微调得到可以对话的模型再通过有监督学习得到能够评估回答质量的奖励模型最后通过强化学习使模型的生成结果符合人类期望。 4.2 无监督学习—基座大模型 数据准备
1、数据准备与预处理:海量文本作为原料使用分词器(tokenizer)将这些文本数据转化为token序列。如GPT3,训练数据的整体规模是3,000亿的token。
任务构建
2、任务构建:采用无监督学习的方式训练模型常见的方法是掩码语言建模(Masked Language Modeling, MLM) 。在这个任务中我们随机选择输入序列中的一些token进行掩码(即用特殊符号替换)然后要求模型根据上下文预测这些被掩码的token。
模型训练
3、模型训练:将预处理后的token序列输入到Transformer模型中经过Transformer得到每个可能token的预测概率。将预测的概率分布与真实值(即被掩码的token)进行比较计算交叉熵损失。通过反向传播算法计算损失函数对模型参数的梯度并使用优化算法(如梯度下降)更新模型的权重。这个过程迭代进行直到模型在验证集上达到满意的性能。
4.3 有监督学习—可对话
监督微调Supervised Fine-tuning是一种在预训练模型的基础上使用与目标任务直接相关的有标签数据集进行有监督训练的方法。其核心思想是通过调整模型的权重和参数使模型更好地适应新的任务或领域。 4.4 有监督学习—奖励模型
在有监督学习的背景下奖励模型的应用可能并不像在无监督学习或强化学习环境中那么直接。然而有监督学习仍然可以为奖励模型提供有价值的信息和指导。 4.5 强化学习—提升模型回复质量
强化学习Reinforcement Learning是一种机器学习技术它通过让智能体agent在与环境交互的过程中学习策略以最大化某种累积奖励信号。强化学习非常适合解决那些难以用传统监督学习方法解决的问题特别是那些需要智能体在不确定环境中进行探索和学习的任务。
在提升模型回复质量的上下文中强化学习可以发挥重要作用。例如当模型需要与用户进行自然语言交互时回复的质量直接影响到用户体验和模型的实用性。通过强化学习模型可以学习如何生成更恰当、更有用的回复。
以下是一些利用强化学习提升模型回复质量的可能方法
定义奖励函数首先需要定义一个奖励函数来衡量模型回复的质量。这个函数可以根据任务的具体需求来设计例如它可以基于回复的相关性、流畅性、多样性或用户满意度等因素。
采样与探索在训练过程中模型需要不断地尝试不同的回复策略并通过观察奖励信号来更新其策略。这涉及到采样和探索的权衡即模型既要利用当前已知的最优策略又要探索可能更优的新策略。
策略优化基于收集到的经验即状态、动作和奖励的序列模型可以更新其策略以最大化累积奖励。这通常涉及到使用某种形式的优化算法如策略梯度方法、Q-learning 或 Actor-Critic 方法等。
用户反馈集成用户的直接反馈是非常宝贵的信息。可以通过某种方式让用户对模型的回复进行评分或提供其他形式的反馈并将这些信息整合到奖励函数中以便模型能够更好地理解用户的期望和需求。
离线与在线学习强化学习可以在离线环境中进行也可以在与用户实时交互的在线环境中进行。离线学习允许模型在大量数据上进行预训练而在线学习则允许模型根据实时反馈进行快速调整。
模型集成与迁移学习强化学习可以与其他机器学习方法如监督学习、无监督学习等相结合以提高模型的性能。此外还可以利用迁移学习技术将从其他任务或领域中学习到的知识迁移到当前任务中以加速学习过程并提高回复质量。
通过结合这些技术和方法强化学习可以有效地提升模型回复的质量为用户提供更自然、更智能的交互体验。