官方你网站建设策略,网页的六个基本元素,环保公司网站建设内容,怎样在小程序开店原书很长#xff0c;有19.3w字#xff0c;本文尝试浓缩一下其中的精华。
知识点
GPT相关
谷歌发布LaMDA、BERT和PaLM-E#xff0c;PaLM 2
Facebook的母公司Meta推出LLaMA#xff0c;并在博客上免费公开LLM#xff1a;OPT-175B。
在GPT中#xff0c;P代表经过预训练(…原书很长有19.3w字本文尝试浓缩一下其中的精华。
知识点
GPT相关
谷歌发布LaMDA、BERT和PaLM-EPaLM 2
Facebook的母公司Meta推出LLaMA并在博客上免费公开LLMOPT-175B。
在GPT中P代表经过预训练(pre-trained)T代表TransformerG代表生成性的(generative)。
基于大模型提供法律咨询服务的Casetext利用私域文本嵌入和摘要技术来应对GPT的错误信息风险。
ChatPDF基于大模型的文档工具解析PDF识别内容理解用户意图和需求提供文本对话、知识问答等服务。
ShareGPT浏览器插件产品用户可以通过ShareGPT保存并分享自己跟ChatGPT的对话记录。
Character.ai神经语言模型聊天机器人网络应用程序。
ELIZA1960s年代在麻省理工学院开发的聊天机器人支持好几种对话脚本可以模拟人本主义的心理治疗师跟用户文本交流。
GPT系列模型用过的数据集
维基百科古登堡计划(Project Gutenberg)致力于将文化作品数字化和归档数字图书馆ThePile数据集中的Books3数据自助出版平台Smashwords维护着Toronto BookCorpus与BookCorpus数据集ArXiv论文库美国国家卫生研究院(The National Institutes of Health)数据集GitHubReddit社交媒体平台Common Crawl互联网爬虫C4公共网页数据集包括各种文章、博客、新闻、论坛等Stack Exchange高质量的问答网站涵盖从计算机到化学等各种领域的问题和答案斯坦福问答数据集The Stanford Question Answering Dataset简称SQuAD。谷歌的自然问答数据集TruthfulQA一个非常容易产生幻觉的数据集专门用来对幻觉进行测试
临界点《大语言模型的涌现能力》(Emergent Abilities of Large Language Models)论文说许多新的能力在中小模型上线性放大规模都得不到线性的增长模型规模必须要指数级增长超过某个临界点新技能才会突飞猛进。量变引发质变。
大模型强调规模定律(Scaling Law)要指数级地加大模型来获得性能突增和能力涌现
Hallucination幻觉指的是生成式AI的胡诌杜撰Confabulation。封闭域幻觉是指人类用户要求大模型仅使用给定背景中提供的信息但大模型却创造背景中没有的额外信息。开放域幻觉是指大模型在没有参考任何特定输入背景的情况下提供关于世界的错误信息。
未来人类学习的知识会有很大一部分源于生成式大模型大模型生成的内容存在胡诌和虚假会对传统人类知识造成污染。OpenAI曾考虑对人工智能生成内容进行水印标记但并未找到可行的实施方法。因此这个关于信任的挑战必须由人类自己来面对。
英伟达公司推出针对大模型推理的H100 NVL GPU和DGX CLOUD计算集群。
Anyscale开发Ray并为OpenAI公司提供框架支持的创业公司提供SkyPilot基于多个云服务商的模型训练推理计算资源的代理。给定一项计算任务及资源需求CPU、GPU或TPUSkyPilot会自动找出哪些位置区域和云服务商具有合适的计算能力然后将其发送到成本最低的位置执行。
TPUTensor Processing Unit张量处理单元张量处理器Google开发的专用集成电路专门用于加速机器学习。
NPU神经网络处理器Neural Network Processing Unit用电路模拟人类的神经元和突触结构。典型代表有国内的寒武纪芯片和IBM的TrueNorth。
PUGCProfessional User Generated Content PUGMProfessional User Generated Model
其他
BIG-bench谷歌的一个研究项目包括有207个测试任务涵盖语言学、数学、常识推理、生物学、物理学、软件开发等领域。
卢德运动英格兰中部莱斯特市织布学徒工内德·卢德(Ned Ludham)在被雇主责骂后失控拿起锤子砸毁一台纺织机。此后他被追随者们称作“卢德王”或“卢德将军”卢德运动由此得名。
恩格斯式停顿Engels’ pause技术进步初期收益分配不均虽然全社会的生产率在不断上升但许多人的生活水平仍然停滞不前甚至不断恶化。
自动驾驶里的分级标准涉及生命安全对驾驶动作的容错性极低分级也非常细致
L1级辅助驾驶指车辆可以在一个维度横向或纵向完成部分驾驶任务例如自适应巡航、车道保持等但需要人类司机时刻监控和干预。L2级部分自动驾驶指车辆可以同时在多个维度加减速和转向完成部分驾驶任务例如特斯拉的自动辅助驾驶(Autopilot)等但仍然需要人类司机时刻监控和干预。L3级有条件自动驾驶指车辆可以在特定环境中如高速公路实现完全自动化的加减速和转向无需人类司机干预但当遇到复杂或异常情况时如交通拥堵、事故等需要人类司机接管控制权。L4级高度自动驾驶指车辆可以在限定条件下如地理区域、天气状况、速度范围等实现完全自动化的行驶在这些条件下无须人类司机接管或监控。L5级完全自动化或无人化在任何条件、任何场景下都能够实现完全自动化的行驶在任何情况下都不需要人类司机接管或监控。
智能客服领域可以简化为3级
L1级辅助客服大模型可以在服务过程中的部分环节如查询信息、回答常规问题提供响应但仍然需要人工客服时刻监控和干预。类似于自动驾驶中的辅助驾驶或部分自动驾驶。L3级有条件自动客服大模型在标准的场景中如普通等级投诉、标准产品销售实现完全自动化的服务无须人工客服干预但当遇到复杂或异常情况时如高等级投诉、申请特殊折扣需要人工客服接管服务。类似于自动驾驶中的有条件自动驾驶或高度自动驾驶。L5级无人化客服在任何条件、任何场景下都能够实现完全自动化的客服在任何情况下都不需要人工客服接管或监控。类似于自动驾驶中的无人化自动驾驶。
数字游民通常是指那些通过互联网和移动设备追寻自由、独立和灵活的新型职业人群他们可以在任何地点和时间进行自己的工作。
个人IP则是指个人在社交媒体等平台上通过内容输出和品牌塑造来建立自己的个人品牌。
Hugging Face在线模型库和社区平台。用户分为两大类即模型托管者和模型使用者。托管者通常是模型的研究开发方可以在平台上托管并共享预训练模型和数据集模型使用者可以通过平台选择合适的模型在社区中进行协作和模型评价然后将选定的模型投入生产应用而训练和推理均可在平台上完成。
Hugging Face是人工智能领域的GitHub。国内类似的有阿里的ModelScope魔搭社区。
DeepMind2010年创业公司2014年被Google收购。发布的AlphaGo Zero不采用任何人类棋谱作为训练数据仅通过自我对弈完成强化学习且比之前的所有版本都要强大。DeepMind和Google自家的Brain合并为Google DeepMind。
Watson HealthIBM投资医疗领域的产物。
Alphabet谷歌母公司Waymo也隶属于Alphabet下研发自动驾驶汽车。
MaaSModel as a Service模型即服务。
聚焦生成式预训练大模型领域主要需要关注大模型在以下几个方面的表现
生成文本的质量模型生成的文本是否流畅、连贯是否与输入强相关、符合人类的预期是否存在偏见或错误信息可以通过人工评估来衡量。零次迁移的学习能力模型在没有接受特定任务训练的情况下处理相关问题的能力。这反映了模型的泛化能力和灵活性。生成样本的多样性模型生成的文本是否具有多样性能否在相同输入的情况下给出多种合理的回应。这可以通过检查生成样本的不同程度来评估。输入的容错性和鲁棒性一个好的模型应当能够处理输入中的错误如拼写错误、语法错误等并且在面对攻击或敌对样本时保持稳定表现。计算资源需求模型在训练和推理阶段对计算资源如GPU、内存等的需求。较小的计算资源需求意味着更高的可扩展性和商业可行性。可解释性和可审计性这些特性有助于理解模型的工作原理以及如何改进模型以减少偏见和错误。
技术
GPT
Transformer核心是基于注意力机制的技术可以建立起输入和输出数据的不同组成部分之间的依赖关系具有质量更优、更强的并行性和训练时间显著减少的优势。
Transformer的基本特征
由编码组件(encoder)和解码组件(decoder)两个部分组成采用神经网络处理序列数据神经网络被用来将一种类型的数据转换为另一种类型的数据在训练期间神经网络的隐藏层位于输入和输出之间的层以最能代表输入数据类型特征的方式调整其参数并将其映射到输出拥有的训练数据和参数越多它就越有能力在较长文本序列中保持连贯性和一致性标记和嵌入——输入文本必须经过处理并转换为统一格式然后才能输入到Transformer实现并行处理整个序列从而可以将顺序深度学习模型的速度和容量扩展到前所未有的速度引入注意机制可以在正向和反向的非常长的文本序列中跟踪单词之间的关系包括自注意力机制(self-attention)和多头注意力机制(multi-head attention)其中的多头注意力机制中有多个自注意力机制可以捕获单词之间多种维度上的相关系数注意力评分(attention score)摒弃递归和卷积训练和反馈——在训练期间Transformer提供非常大的配对示例语料库例如英语句子及其相应的法语翻译编码器模块接收并处理完整的输入字符串尝试建立编码的注意向量和预期结果之间的映射。
在Transformer之前有RNNRecurrent Neural Network循环神经网络或CNNConvolutional Neural Networks卷积神经网络。
大模型的训练包括三个阶段
自监督预训练(Self-supervised pre-training)监督微调(Supervised Fine Tuning)人类反馈强化学习(RLHF)
RLHFReinforcement Learning from Human Feedback
监督学习一种经典的机器学习方法其目标是使用有标签数据集来训练一个模型以使其能够对新的未标记数据进行预测。训练数据的标签是已知的模型的目标是最小化预测输出与真实标签之间的差异以学习如何进行准确的预测。
微调(Fine-Tuning)的起源可以追溯到早期计算机视觉领域当时在大型图像数据集上训练的CNN被证明能够捕捉图像中的高级特征这些特征在许多视觉任务中都是有用的。
SFTSupervised Fine-Tuning监督微调是一种特定的迁移学习方法不同于传统从零开始训练的监督学习。基于一个通用的预训练模型使用少量有标签的数据集对模型进行微调以适应特定任务的要求。微调方法通常需要更少的标签数据来实现良好的性能因为预先训练的模型已经学习一些通用的语言表示可以更好地适应新的任务。微调需要的训练时间和算力也更少在微调过程中预训练模型的一部分可能会被固定以避免过度调整和过拟合只会改变模型的一小部分层。
自回归(auto-regressive)在生成每个token时都会考虑前面已经生成的token可以保证生成文本的连贯性和语义一致性。
束搜索(beam search)计算多个概率较高的token候选集生成多个候选响应并选择其中概率最高的响应作为最终的输出。
使用温度(temperature)参数来引入一定程度的随机性以使生成的响应更加丰富多样。较大的temperature值会有更多机会选择非最高概率token可产生更多样的响应但也可能会导致生成的响应过于随机和不合理较小的temperature值可以产生更保守和合理的响应但也可能会导致生成的响应缺乏多样性。
大模型标注样本数据的获取主要有以下4种手段
通过专业人员进行数据标注。Scale AI公司是OpenAI公司的专业数据标注服务商支持标注的数据类型包括文本、图像、音频、视频、3D传感、地图等。标注业务的商业模式有两种按条数收费和按项目收费。搜集用户使用过程中的反馈获取公域或三方数据接入企业私域数据
RDMA远程直接内存访问(Remote Direct Memory Access)跟传统以太网和TCP/IP协议相比RDMA将数据直接从一个GPU节点的内存快速转移到另一个节点的内存中绕开双方操作系统内核和CPU的处理实现高吞吐、低时延和低资源占用率。
RDMA有两种典型的技术方案无限宽带技术(IB)、基于融合以太网的RDMA(RoCE)。IB方案的链路层流控技术可以获得更高的带宽利用率因此能支撑更大规模的训练集群但IB方案无法兼容现有以太网需要更换IB网卡和交换机部署和运维成本不菲。RoCE将IB的报文封装成以太网包进行收发相比IB在性能上有一些损失。 分布式的深度学习框架便成为大模型最重要的软件基础设施需要重点解决以下问题
大规模计算大型语言模型通常包含数十亿甚至数百亿的参数这需要大量的计算资源才能进行训练和推理。分布式深度学习框架可以在多个计算节点和多个GPU或其他加速器上并行执行任务从而实现大规模计算。数据、模型和流水线并行数据并行将允许多个计算设备同时处理不同的数据分片提高训练速度。模型并行将模型分布在不同的计算设备上使得训练更大的模型成为可能。流水线并行将模型的计算过程划分为多个阶段在不同的计算设备上并行执行减少通信开销提高计算设备的利用率。以上几种并行策略对于加速大型语言模型的训练过程至关重要。高效的资源利用通过任务调度、负载均衡和资源管理等机制确保计算资源得到高效利用。这有助于降低大型语言模型训练和推理的时间和成本。容错和恢复大型语言模型的训练时间较长在训练过程中出现计算节点和设备故障无须从头开始只需要容错和恢复机制就可以确保训练可以继续进行。
如果大模型的需求超过GPU每年性能提升一倍英伟达黄仁勋提出只能靠更大的分布式计算集群来实现有两个瓶颈或突破口
云服务商数据中心的核心网带宽要从老的以太网升级到新的标准软件方面深度学习框架要配合。
分布式深度学习框架能力的实现方式有两种
叠加式在已有的深度学习框架之上提供分布式能力如OpenAI在ChatGPT中使用Ray on PyTorch。Ray主要解决分布式计算、任务调度和资源管理等方面而PyTorch则侧重于模型的构建、训练和优化。英伟达的Nemo Framework、微软的DeepSpeed等提供模型并行、数据并行和流水线并行等技术。 模型设计和开发使用PyTorch构建神经网络模型定义损失函数、优化器等训练所需组件。这个阶段主要依赖于PyTorch的功能。分布式训练使用Ray提供的分布式API将PyTorch模型在多个节点和多个GPU上进行训练。Ray负责任务调度、资源管理和容错而PyTorch则负责模型参数的更新和优化。数据和模型并行结合Ray的分布式特性在PyTorch上实现数据并行多个设备同时处理不同数据分片和模型并行将模型分散到不同的计算设备上。部署和推理使用Ray Serve部署PyTorch模型并提供高性能的在线推理服务。Ray Serve负责模型的扩展和负载均衡确保推理过程的高效和稳定。 全栈式专为大模型解决横向扩展问题的、原生支持分布式并行训练的深度学习框架如国人开源框架OneFlow。 OneFlow以软硬协同设计为指导思想从芯片设计领域借鉴了大量思路在纯软件层面解决大模型训练的横向扩展难题。将自动编排并行模式、静态调度、流式执行等技术相融合构建一套原生支持数据并行、模型并行及流水并行等多种模式的分布式深度学习框架无需定制化开发兼容多种底层GPU硬件降低大模型分布式训练门槛。降低计算集群内部的通信和调度消耗提高硬件使用率缩减训练成本和时间。
BERT
变体BioBERT、RoBERTa和ALBERT
GPT vs BERT
不同
GPT是单向编码BERT是双向编码。GPT基于Transformer解码器构建BERT基于Transformer编码器构建。这意味着GPT只能利用左侧的上文信息而BERT可以同时利用左右两侧的上下文信息可以捕捉更长距离的依赖关系并且更适合处理一词多义的情况。GPT使用传统的语言模型作为预训练任务即根据前面的词预测下一个词。而BERT使用两个预训练任务掩码语言模型(MLM)即在输入中随机遮盖一些词然后根据上下文来还原这些词下一句预测(NSP)即给定两个句子判断它们是否有连贯的关系。这两个任务可以提高BERT对语言结构和语义的理解能力。GPT可以应用于自然语言理解(NLU)和自然语言生成(NLG)两大任务原生的BERT只能完成NLU任务无法直接应用在文本生成上面。因为GPT采用左到右的解码器可以在未完整输入时预测接下来的词汇。而BERT没有解码器只能对输入进行编码和预测掩码位置的词汇。
其他
传统的分析型AI是通过训练数据来学习预测新数据的标签或值生成式AI则是通过学习数据的概率分布来生成新的数据。生成式AI的技术GPT生成式对抗网络(GAN)。
GAN基本思想是同时训练两个神经网络一个生成器网络和一个判别器网络。生成器网络用于生成假数据判别器网络用于区分真实数据和生成的假数据。两个网络不断交替训练直到生成器网络生成的假数据无法被判别器网络区分真假为止。已被广泛应用于图像、音频、视频生成等领域如图像生成应用Midjourney就采用GAN技术。
提示(Prompt)工程有3个主要作用
激发模型的潜在知识和能力。使模型理解输入的问题或任务提供相关的回答。改进模型的生成输出提高可读性、连贯性和准确性。
在算力、数据、算法的人工智能三要素当中大模型产业通过硬件基础设施层加上分布式框架重点解决算力要素的问题。
LLaMA一种基于开放数据集进行自监督预训练的大模型。主打两个特色
开放即可以在非商业许可下提供给政府、开发社区和学术界的研究人员让更多机构和个人能参与大模型的研究和探索实现大模型的民主化性价比可以在大数据集的基础上缩小模型规模找到模型性能和推理部署成本的最佳平衡。
观点
21世纪以来摩尔定律面临新的生态功耗、内存、开关功耗极限以及算力瓶颈等技术节点。摩尔定律逼近物理极限无法回避量子力学的限制。在摩尔定律之困下只有三项选择延缓摩尔扩展摩尔超越摩尔。
凯文·凯利1994年所著的《失控机器、社会与经济的新生物学》提出群集系统理论群集系统存在明显的冗余问题且效率相对较低有不可预测、不可知、不可控的缺点但也有可适应、可进化、无限性和新颖性的优势。如蚁群粒子群神经网络等系统个体随机混乱但是彼此关联协同形成一个有迹可循的整体。个体的进化推动整体能力的涌现。
达特茅斯学院的人工智能会议引申出人工智能的三个基本派别
符号学派(Symbolism)又称逻辑主义、心理学派或计算机学派。该学派主张通过计算机符号操作来模拟人的认知过程和大脑抽象逻辑思维实现人工智能。符号学派主要集中在人类推理、规划、知识表示等高级智能领域。联结学派(Connectionism)又称仿生学派或生理学派。联结学派强调对人类大脑的直接模拟认为神经网络和神经网络间的连接机制和学习算法能够产生智能。学习和训练是需要有内容的数据就是机器学习、训练的内容。联结学派的技术性突破包括感知器、人工神经网络和深度学习。行为学派(Actionism)该学派的思想来源是进化论和控制论。其原理为控制论以及感知—动作型控制系统。该学派认为行为是个体用于适应环境变化的各种身体反应的组合其理论目标在于预见和控制行为。
罗伯特·赖克(Robert Reich)于1991年出版的《国家的工作》(The Work of Nations)一书中把这个时代的工作分成三类
符号分析师包括经理人、工程师、金融分析师、律师、科学家、记者、咨询师等知识工作者。逐渐被计算机接管的常规工作需要人际交流的面对面服务工作
根据布鲁姆教育目标分类法(Bloom’s taxonomy of educational objectives)人类对知识的处理(Knowledge Processing)有六个层次记忆、理解、应用、分析、评价和创造。
《创造力手册》法国数学家庞加莱(Poincaré)指出创造的一种形式是对有用的关联元素进行新组合。
《ChatGPT预示着一场智力革命》大模型将重新定义人类的知识
人类知识的边界有机会更快速地扩展人类知识处理的范式将发生转换人类知识处理还将面对范式转换带来的严峻挑战
搜商借助于搜索引擎在互联网上快速精确搜索想要的信息及获取知识的能力。
搜索语言利用双引号、加号、减号、文件类型、站点范围等各种限定符对搜索结果进行更精准的筛选。
阿尔伯特·爱因斯坦说提出一个问题往往比解决一个问题更重要。
提问题的问题即所谓问商。在大模型时代问商更凸显其价值。
根据人类与大模型之间协作的过程把问商分为两部分
初始阶段3R任务授权法Ask AI for help。跟进阶段苏格拉底提问法Question AI for better result。
3R
Role即角色设定和目的Result即期望的结果Recipe即思考如何才能拿到预期的结果并给出方法和指导
史蒂芬·R.柯维(Stephen R.Covey)在《高效能人士的七个习惯》一书中提出任务授权的两种类型——指令型授权和责任型授权重点描述和推荐责任型授权的方法。这种授权类型要求双方就以下五个方面达成清晰、坦诚的共识并做出承诺
预期成果。要以“结果”而不是以“方法”为中心指导方针。确认适用的评估标准避免成为指令型授权但是一定要有明确的限制性规定可用资源责任归属明确奖惩
理查德·保罗(Richard Paul)在《像苏格拉底一样提问》(The art of Socratic questioning)一书中给苏格拉底提问法下的定义提出问题并引导出答案的方法有如下的一个或多个目的
检验理论或观点是否正确。循循善诱让潜藏于脑海中尚未成形的想法成形。引导回答者得出符合逻辑或合理的结论无论发问者是否已预知该结论。引导对方承认其观点或结论需要进一步验证是真是假。
苏格拉底式的问题可以分为4大类证据类、视角类、理由类、影响类 GPT大模型满足通用技术的三个核心标准随着时间推移技术不断改进贯穿整个经济体系能够催生互补性的创新。
创新者窘境即成功的公司往往会被自己现有的市场和客户束缚而忽视新兴的技术和市场的需求从而导致被更具创新力和灵活性的新进入者所颠覆。如谷歌在大模型方面落后于OpenAI。