当前位置: 首页 > news >正文

梅林关网站建设安徽智能网站建设哪里有

梅林关网站建设,安徽智能网站建设哪里有,企业管理咨询案例分析,个人简历模板范文手写舒巴姆阿加瓦尔 一、说明 近年来#xff0c;随着 Transformer 的引入#xff0c;语言模型发生了显着的演变#xff0c;它彻底改变了我们执行日常任务的方式#xff0c;例如编写电子邮件、创建文档、搜索网络甚至编码方式。随着研究人员在代码智能任务中应用大型语言模型随着 Transformer 的引入语言模型发生了显着的演变它彻底改变了我们执行日常任务的方式例如编写电子邮件、创建文档、搜索网络甚至编码方式。随着研究人员在代码智能任务中应用大型语言模型神经代码智能的新领域已经出现。该领域旨在通过解决代码摘要、生成和翻译等任务来提高编程效率并最大限度地减少软件行业中的人为错误。 随着 Code Llama 的最新版本Meta AI 用于代码生成和理解的最先进模型本文回顾了代码大型语言模型 (LLM) 从 RNN 到 Transformer 的演变。 图 1大型代码语言模型的时间表。图片由作者提供。 二、代码2Vec2018 这是语言模型理解代码的首次尝试之一。Code2Vec旨在将代码片段表示为嵌入。这些嵌入从代码中捕获语义和结构信息使其可用于各种软件工程任务例如代码分类、检索和理解。 模型尝试通过对命名良好的标记和 AST抽象语法树路径进行编码并应用神经注意力来聚合成固定长度的向量表示从而从代码片段中预测方法名称。 图 2Code2Vec 模型架构程序首先分解为包含 token 和 AST 路径的上下文袋然后通过全连接层和注意力层生成代码向量。图像灵感来自 Uri Alon 等人的原始论文。来自Code2Vec的 al 训练集 14M Java 程序示例模型架构RNN 前馈网络新颖性 基于路径的注意力模型- 作者提出了一种新颖的神经网络架构该架构使用代码片段的抽象语法树AST中的语法路径作为输入特征。该模型学习为每条路径分配不同的注意力权重并将它们聚合成单个代码向量。然后代码向量可用于预测片段的标签分布或测量片段之间的相似性和类比。 您可以在这里使用模型 三、代码BERT2020 CodeBERT由微软研究团队开发通过在基于 Transformer 的BERT 模型上引入多模态数据预训练、结合自然语言和编程语言 (NL PL)代表了代码大型语言模型 (LLM) 领域的重大进步。该模型在包含双峰数据点对和单峰数据点的多样化数据集上进行训练用于掩码语言建模 (MLM)和替换令牌检测 (RTD)任务。CodeBERT 在多个领域展示了卓越的性能尤其是在自然语言代码搜索和代码到文档生成方面表现出色。 图 3使用替换令牌检测 (RTD) 任务的 CodeBERT 模型预训练。自然语言生成和代码生成器用不同的标记替换标记并且训练 CodeBERT 模型以将每个标记分类为替换的或原始的。图片来自 Feng 等人。等人代码BERT 训练数据集Codesearch Net 数据集- 2.1M 双峰数据点 (NL PL)、6.4M 单峰数据点6 种语言 — Python、Java、Javascript、PHP、Ruby、Go 参数大小125M 模型架构 RoBERTa- baseNovelty 双模态训练CodeBERT 引入了一种创新的训练方法其中包含自然语言和编程语言标记。这种双模态训练技术通过考虑人类可读的描述和编程语言元素之间复杂的相互作用增强了模型理解和生成代码的能力。代码的替换标记检测 (RTD) 任务CodeBERT 预训练使用替换标记检测 (RTD) 代替下一句预测 (NSP)表现出卓越的性能。 四、Codex2021 年 Codex是第一个成功地从文档字符串或自然语言提示生成高精度代码的 Code LLM 之一也是广泛使用的Github Copilot的前身。Codex 由 OpenAI 团队开发使用GPT3架构和分词器并在大量 Github 代码上进行预训练。这个大型语言模型有 12B 个参数是 2021 年最先进的模型它在人类评估数据集上表现出最佳性能一次性解决了 28.8% 的问题。 在独立的 python 函数而不是包括配置、类实现等的整个代码上进一步微调模型显示出显着的改进并且能够解决37.7% 的人类评估数据集问题。 图 4用于 Codex GPT 模型的仅解码器 Transformer 架构。图像灵感来自 Vaswani 等人的原始Transformer 论文。等人。 训练数据集来自 54M Github 存储库的 159GB python 文件。参数大小 12B (Codex-12B)模型架构 GPT3新颖性 第一个成功的模型在自然语言提示下的代码编写能力方面表现出色。这会在大型 Github 存储库上训练 GPT-3 模型。该模型的作者还创建了一个新的数据集“ HumanEval ”来对代码生成任务的模型进行基准测试。该数据集包含 164 个带有单元测试的手写编程问题。 在这里尝试 OpenAI Playground 的 Codex 模型Code-T52021 Code-T5是基于 T5 架构的编码器-解码器模型与 CodeBERT仅编码器和 Codex仅解码器模型不同。它引入了独特的标识符感知去噪预训练任务帮助模型区分和恢复代码中的标识符增强其对结构的理解。 Code-T5 通过多任务学习在代码缺陷检测、克隆检测、代码翻译和细化等各种任务中表现出色需要更少的数据来更快地进行微调。但是它使用 CodeBleu 分数进行评估而不是针对 HumanEval 数据集进行基准测试。 图 5展示 CodeT5 如何在各种代码理解和生成任务中表现出色的插图。图片取自 Wang 等人的 PaperCodeT5 训练数据集Codesearch Net 数据集与 CodeBERT 相同参数大小220M模型架构T5编码器-解码器架构新颖性 编码器-解码器模型l第一个支持代码理解和代码生成任务的编码器-解码器代码 LLM 之一。提出了一种新颖的预训练目标标识符感知去噪它可以学习标记类型信息和代码结构。这种方法训练模型区分标识符变量名称、函数名称和 PL 关键字如 if、while 等并在它们被屏蔽时恢复它们。微调阶段的多任务学习同时微调各种与代码相关的任务如代码缺陷检测、克隆检测、代码翻译、细化等。 五、PLBart2021 PLBART程序和语言 BART模型利用 BART 模型架构来自动化一系列软件工程任务包括 PLUG程序和语言理解和生成下的代码汇总、生成和翻译。 它引入了一种去噪序列到序列建模方法以增强程序和语言理解战略性地结合了 BERT 和 GPT 模型的优势。这是通过将双向编码器与自回归解码器相结合来实现的从而可以更全面地掌握上下文和通用的生成过程。该模型采用令牌屏蔽、令牌删除和令牌填充三种去噪策略来有效地训练和微调其能力。 图 6可视化 BART 模型也在 PLBART 中使用架构的图示该架构具有双向编码器和自回归解码器。图片来自 Lewis 等人的原始BART 论文。等人。 训练数据集从 Github、Stackoverflow 收集的 2M 个 Java 和 Python 函数及其自然语言描述代码。参数大小140M6 个编码器层 6 个解码器层 编码器和解码器上的附加规范层模型架构BART新颖性 去噪自动编码器方法采用去噪自动编码器方法通过有效利用编码器和解码器的双向和自回归特性结合 BERT 和 GPT 模型的优势增强代码理解和生成。多样化的去噪策略提出了多种去噪策略如token屏蔽、token删除、token填充等。这种噪声技术的多样性增强了模型从噪声数据中学习的稳健性和有效性有助于改进代码理解和生成。 并非所有模型都使用相同的基准来评估性能。PLBART 作者不会在 HumanEval大多数其他模型用于基准测试的数据集上评估模型性能。 六、Code Llama2023 Code Llama是 Meta 发布的最新 Code LLM它在多个基准数据集中击败了所有现有的开源模型。它在HumanEval 数据集上得分为 53% 在 MBPP 数据集上得分为 55%只有 GPT-4 具有更好的性能。这些收益可归因于 16K 的较长上下文长度Llama2 的 4 倍以及使用来自程序和自然语言的额外 500B 令牌对预训练的 Llama 2 进行训练。 该模型最适合代码生成和填充任务并且可以在基于 IDE 的软件开发过程中充当最佳副驾驶。Code Llama模型家族有3种模型- 代码骆驼代码 Llama Python代码 Llama-指导 每款都有 3 种尺寸 - 7B、13B 和 34B 图 7以预训练的 Llama-2 模型作为输入的代码 Llama 训练和微调管道。图片来自 Rozière 等人的原始Code Llama 论文。等人。 训练数据集500B 代币 用于公共代码上的 Code llama Python 的额外 100B 代币模型架构Llama 2参数大小有 3 种大小可供选择 - 7B、13B 和 34B。新颖性 提出了一个处理长序列的微调步骤称为“长上下文微调”它将上下文长度增加到 16,384Llama 2 上下文长度的 4 倍即 4096指令微调和自指令执行指令微调的少数模型之一在微调过程中使用显式指令或提示。作者提出了一种新颖的执行反馈方法来构建自指令数据集而不是创建昂贵的人类反馈数据。 七、结论 Open AI 创始人之一安德烈·卡拉帕蒂 (Andrej Karapathy) 最近称变形金刚是人工智能中最好的想法。他补充说变压器就像一台通用的可微分计算机它同时具有表现力、可优化性和高效性X post。从过去 3-4 年带来的转变来看Transformer 模型具有巨大的潜力可以进一步改变我们作为软件工程师的编码方式而我认为这只是一个开始。
http://www.zqtcl.cn/news/17831/

相关文章:

  • 网站建立吸引人的策划活动温州快速建站公司
  • 购物网站网页设计模板上海网站建设服
  • 做淘宝还是京东还是做网站合肥墙面刷新
  • 网站的服务器每年都要续费的吗保定网站制作案例
  • 无锡哪里做网站好计算机个人网站建设论文
  • 电子商务网站的建设包含哪些流程网站 专题建设服务
  • 有自媒体谁还做网站2022年中国企业500强
  • 电商网站 建设步骤泰安人才网最新消息
  • 定制网站建设程序流程写作墨问题 网站
  • 360seo优化网站优化软件有哪些
  • 课程网站建设课程现在的网站做多大尺寸的
  • 布拖网站建设一个网站的建设需要什么
  • 益阳网站开发公司选择网站做友情链接的标准一般是
  • 糟糕的网站设计wordpress缩略图外链
  • 做ppt素材网站哪个好企业内部网站建设
  • 怎样建设打字网站自己做头像网站
  • 马鞍山集团网站建设定制直播app
  • 网站开发前端与后端源代码wordpress增强搜索
  • 搭建网站平台需要多少钱wordpress 目录 伪静态
  • 网站设计需要需要用网站开发 项目规划 怎么写
  • 做网站要多少的分辨率烟台做网站企业
  • 国外做外贸哪个网站好些如何制作一个网站做淘宝券
  • 云梦网如何做网站电脑培训班多少费用
  • 网站互联网推广塘沽论坛网
  • 网站服务是什么淘宝官网电脑版网页
  • 上海网站建设与设计公司什么网站可以做效果图
  • 制作音乐网站实验报告企业网站建设的策略
  • qq在线网站代码生成学校网站 建设措施
  • 网站商城微信支付怎样在百度上免费建网站
  • 网站建设详细需求文档wordpress漂亮手机网站