当前位置：首页 > news >正文

网站建设图书管理网站南京百度网站制作

news 2025/11/14 20:04:56

网站建设图书管理网站,南京百度网站制作,sem是什么意思中文,哪个搜索引擎最好用ModernBERT#xff08;2024 年 12 月#xff09;是最近发布的小型语言模型#xff0c;由 Answer.AI、LightOn 和 HuggingFace 共同开发。它利用了现代优化技术#xff0c;如用于 8,192 token 上下文窗口的 RoPE 和 GeGLU layers#xff0c;在保持效率的同时提升性能。jina…ModernBERT2024 年 12 月是最近发布的小型语言模型由 Answer.AI、LightOn 和 HuggingFace 共同开发。它利用了现代优化技术如用于 8,192 token 上下文窗口的 RoPE 和 GeGLU layers在保持效率的同时提升性能。jina-XLM-RoBERTa2024 年 9 月是一个基于 Meta 的 XLM-RoBERTa 的多语言文本嵌入模型。原始 XLM-RoBERTa 使用 XLM 大型多语言数据集增强了 RoBERTa而 jina-XLM-RoBERTa 通过扩展上下文训练、RoPE 实现和 FlashAttention-2 支持进一步改进。这个模型是 jina-embeddings-v3 的基础。RoBERTa-large2019 年 7 月由 Meta 开发是 BERT 的增强版本拥有 3.55 亿参数。通过扩展训练、更大的数据集和动态掩码等创新它在包括 GLUE、SQuAD 和 RACE 在内的关键基准测试中取得了出色的成果。这使其非常适合从文本分类到问答等各种 NLP 任务。通过比较这些模型的三个核心方面我们旨在为模型开发者突出 ModernBERT 的有效设计选择并为未来的 BERT 类模型开发确定关键洞察。我们还将分享开发 jina-embeddings-v3 的经验并讨论 jina-embeddings-v4 和 jina-reranker-v3 的计划改进。 ModernBERT 的参数效率让我们首先研究 ModernBERT 在参数效率方面的方法——它借鉴了最近大语言模型开发的几个关键见解。ModernBERT 利用了三个核心策略更深但更窄的架构、可控的词汇表大小以及从较小模型开始的渐进式模型扩展。深而窄的架构 ModernBERT-large 采用了 28 层的更深架构而 jina-XLM-RoBERTa 和 RoBERTa-large 是 24 层。但有趣的是尽管增加了层数它的参数数量与 RoBERTa-large 持平。jina-XLM-RoBERTa 需要更多参数是因为它要处理 89 种语言而另外两个只专注于英语。对于小型大语言模型来说深度层数比宽度隐藏单元数更重要。深而窄的模型结构在捕捉抽象概念方面表现出色最终带来更好的性能。 transformer 的大部分参数来自注意力层和全连接层。ModernBERT 通过采用更窄的方式保持竞争力——在 28 层中使用 2,624 个隐藏单元相比之下 RoBERTa-large 在 24 层中使用 4,096 个单元。这种更深但更窄的设置使他们能够在不增加模型体积的情况下达到性能目标。 ModernBERT-largejina-XLM-RoBERTaRoBERTa-large参数量400M550M355M隐藏状态1,0241,0241,024中间维度2,6244,0964,096注意力头161616层数282424词汇表大小50,368250,00250,265 这种方法与 Meta 的 MobileLLM 研究结果相符该研究发现对于较小的模型来说在捕捉复杂模式和提升性能方面深度比宽度更重要。本质上通过更多 transformer 层处理信息的能力比拥有更宽的层进行并行处理更有价值。让我们看看这种深而窄架构的性能数据。与使用传统浅而宽架构的同类模型相比ModernBERT 在检索和 STS 等关键任务上表现更好——同时保持了类似的参数数量。 ModernBERT-largejina-XLM-RoBERTaRoBERTa-largeSTS1272.672.768.9STS1384.983.981.0STS1477.577.774.8STS1584.885.884.1STS1679.479.678.6STS1787.587.287.2TRECCOVID61.159.649.3FiQA44.440.040.7NFCorpus32.630.627.9SciFact68.665.563.1平均值69.368.265.6 以 jina-XLM-RoBERTa 为例——它在 RoBERTa-large 的浅而宽架构基础上将词汇表从 5 万扩大到 25 万个 token并训练了更多数据。但 ModernBERT 仍然略胜一筹这表明架构的改变确实在效率方面产生了实质性的差异。 “词汇表大小很重要”)词汇表大小很重要首先让我们看看 transformer 中词汇表参数是如何计算的。对于任何 transformer词汇表参数不同 token 数量 × 隐藏维度。以 jina-XLM-RoBERTa 为例有 25 万个 token 和 1,024 维度仅词汇表编码就需要 2.56 亿参数——这还是在处理任何实际语言任务之前在 transformers 中第一层通过权重矩阵即词汇权重将词元映射为隐藏状态。考虑到使用所有 UTF-8 码点1,112,064与 1,024 个隐藏维度 - 仅用于词元转换就需要巨大的 1,112,064 × 1,024 1 B 参数。虽然更大的 LLM超过 100B 参数可以处理这种开销但对于较小的模型来说这是一个严重的限制。这正是我们使用 BPE 等分词器的原因它可以高效地将常见的 UTF-8 码点合并为单个词元。但关键是**词汇权重不参与注意力机制 - 它们只是查找表。**对于在固定参数预算下工作的 SLM更大的词汇表意味着用于实际语言处理的注意力层可用参数更少。这解释了为什么仅支持英语的 ModernBERT-large 尽管规模较小却优于多语言 jina-XLM-RoBERTa - jina-XLM-RoBERTa 分配了更多参数47%来支持多种语言。ModernBERT 的专注词汇表不仅提高了性能还加快了推理速度使其特别适合资源受限的应用。所以现在如果我们只看核心模型参数不包括词汇权重ModernBERT 实际上比其同行具有更强的计算能力ModernBERT 在实际语言建模上比 jina-XLM-RoBERTa 多 19% 的参数比 RoBERTa-large 多 15% 模型规格ModernBERT-largejina-XLM-RoBERTaRoBERTa-large语言支持仅英语89 种语言仅英语词汇量大小50.4K250K50.3K总参数400M550M355M词汇参数51M256M51M词汇参数比例13%47%14%核心模型参数349M294M304M 通过权重平铺进行模型扩展’)通过权重平铺进行模型扩展 ModernBERT 通过一种称为权重平铺的智能初始化方法解决了这个问题 - 本质上是从其较小的基础版本的权重引导 ModernBERT-large。这种技术并不完全是新的 - 它建立在 DeepMind 的 Gopher 工作基础上在微软的 Phi-2 模型中也有体现。但它在这里的应用对解决 SLM 训练瓶颈特别有效。 ModernBERT 使用 Gopher 团队的深度初始化策略从 22 层扩展到 28 层。对于那些额外的层23-28他们使用 ModernBERT-base 原始 22 层中的权重初始化每一层。对于每层的权重矩阵他们使用 Phi-2 的中心平铺方法。工作原理是这样的他们将 ModernBERT-base 的权重放在 ModernBERT-large 矩阵的中间。对于仍然空着的边缘怎么办他们循环包装原始权重来填充它们。这种初始化策略给 ModernBERT-large 带来了显著优势 - 它不是从零开始而是利用了其较小版本预先学习的模式。它在扩展这个规模范围内的语言模型方面特别有效。我们发现热启动模型能够从初始的高损失由于增加的参数中快速恢复达到接近基础模型的损失水平。我们能够将 417M 参数扩展超过 3 倍并保持优于从头开始训练到收敛的等效新模型的性能这意味着收益不仅限于训练初期。然而在更大的规模下收敛时获得的相对收益会减少特别是在宽度扩展方面。循环权重包装不仅仅是为了方便 - 它与注意力矩阵自然呈现周期性模式的方式很好地吻合。Gopher 的研究表明这种方法在 SLM小于 9B 参数中特别有效但随着模型规模增大这些优势开始减弱。分词器的优势 ModernBERT 使用的是专门针对代码训练的 OLMo tokenizer而不是标准的 BERT/RoBERTa 分词器。分词器将 UTF-8 文本分解成映射到向量的 token - 这些才是模型实际处理的内容。在训练过程中它学会将频繁出现的字符序列组合成单个 token。区别在哪里标准分词器可能会把 init 分解为 in it忽略了编程上下文。但 ModernBERT 的代码感知分词器则可以完整保留它。在空格处理方面就更有意思了ModernBERT 将 Python 的前导空格保留为单个 token并区分 4 个和 8 个空格的差异 - 这对代码结构至关重要。** 这意味着 ModernBERT 的编码器在处理代码时能获得更清晰、更有意义的输入而其他模型则要处理破碎、连贯性较差的 token。 ModernBERT 将 Python 的前导空格保留为单个 token并区分 4 个和 8 个空格的差异 - 这对代码结构至关重要而其他模型则需要处理破碎、连贯性较差的 token。 ModernBERT 的长文本处理能力 ModernBERT 在处理长文本方面取得了重大进展这要归功于其庞大的训练语料库包含 8,192 token 样本的 300B tokens和全局与局部注意力相结合的先进技术。 ModernBERT 的卓越性能不仅仅归功于其广泛的长文本训练 - 很大程度上要归功于其创新的全局和局部注意力机制组合。与在每一层都使用计算成本高昂的全局注意力的 jina-XLM-RoBERTa 不同ModernBERT 采用了更高效的方法。它在全局注意力每三层使用一次theta 为 160,000和局部注意力使用 128 token 的滑动窗口theta 为 100,000之间交替使用。这种混合策略在保持高性能的同时大大减少了训练时间。在 ModernBERT 中每三层会使用一次全局注意力RoPE theta 为 160,000其余层使用 128 token 的局部滑动窗口注意力RoPE theta 为 10,000。—— ModernBERT SpeedBot 的客户支持聊天机器人本是为处理物流查询和送货更新而设计的。团队原本预计会收到关于包裹位置和送货时间的简单问题。然而在上线三天后它竟然开始编写 Python 脚本并调试 SQL 查询因为好奇的用户们开始测试它的能力远远超出了原本的设计范围。这可谓是大型语言模型LLM部署中的一个普遍规律不管你开发的应用程序是做什么的用户总会试图让它帮你写作业。下文我们将ModernBERT用于在用户查询到达大型语言模型LLM之前对其进行筛选。为生产环境打造一个高效且成本效益高的“守门人”系统。挑战筛选不想要的查询一家快速发展的物流公司最近推出了他们的客户服务聊天机器人其使命非常明确处理客户关于跟踪订单的查询计算运费解决送货问题解释可用服务然而在部署后的几天内支持团队发现了一个意外的模式。他们精心打造的物流助手收到的离题请求越来越多。用户们把它当成了一个通用的人工智能助手而不是一个专门用于物流查询的工具。这些离题的查询不仅浪费了计算资源增加了运营成本还可能使公司面临风险。挑战变得清晰起来SpeedBots 如何在不损害合法客户体验的情况下有效地在查询到达昂贵的 LLM 之前进行筛选呢常见解决方案优化LLM 的 prompt 最流行的解决方案简单地在系统提示中添加过滤指令让模型自己表现得规矩一些 “你是一个物流助手。只回答与物流和运输服务相关的问题。如果用户询问关于跟踪订单、运费、送货时间或物流问题请提供有帮助的答复。不要回应编程请求、非法活动或不相关的话题。礼貌地解释说你只能帮助物流相关的问题。” 这有点像让一个小孩不要吃饼干然后又把饼干罐放在他够得到的地方。当然有时候它会奏效但不可避免的是聪明的用户会找到方法说服模型让他们离题的查询看起来像是物流相关的。一个稍复杂一点的变体是使用一个单独的“守门人提示”在查询能够接触到你的主模型之前对其进行评估 “判断以下查询是否与物流服务相关。如果查询是关于运输、送货、跟踪或其他物流主题请回复 TRUE。否则回复 FALSE。查询{{user_query}}” 局限性指令冲突当我们在同一个提示中塞入相互竞争的指令时——“要乐于助人”但同时“要限制自己”——我们实际上是在稀释模型在两项任务上的有效性。我们越强调谨慎它在提供帮助方面就越不给力我们越强调乐于助人它就越放任自流。误报在实际部署中当被赋予过滤责任时LLM 通常会倾向于谨慎行事。它们经常拒绝那些完全合法且在其预期范围内的查询给有正当请求的用户带来令人沮丧的体验。对于 SpeedBots 来说这表现为他们的聊天机器人拒绝了像“寄送易碎物品要花多少钱”这样简单的问题因为它把“易碎物品”解释为可能违反政策的内容。与此同时巧妙措辞的离题请求却仍然能够通过。结果就是最糟糕的情况合法的客户感到沮丧而计算资源仍然被浪费在非物流查询上。专业的守门人利用一个小参数LLM 作为防护栏比如8B。从理论上讲这种方法是完美的与其让主模型既当大厨又当门卫不如专门雇一个门卫。这意味着先把所有进来的查询通过一个安全模型只有经过批准的问题才能到达他们的主物流助手。局限性小问题仍是问题校准挑战虽然这些专用过滤模型比高级 LLM 便宜大约便宜 4 倍参数量是高级 LLM 的 1/8但它们真正的局限性在于如何校准。安全模型通常是为了提供广泛的保护性护栏而设计的不能通过简单地更新提示来针对特定领域进行定制。过度热情安全模型倾向于为最大保护而校准往往以牺牲可用性为代价。这意味着关于“易碎物品处理”的合法物流查询被标记为危险的而巧妙伪装的不当内容有时却能溜过去。通用安全模型在捕捉明显有害内容方面表现出色但在处理对专业应用最重要的行业特定细微差别方面却很吃力——这既产生了误报也产生了漏报限制了它们的有效性。尽管这些模型确实比“礼貌请求”的方法有所改进但无法精确控制过滤的内容是一个重大限制。对于像 SpeedBots 这样有特定领域需求的公司来说这种方法仍然存在太多不确定性。定制的守门人微调 LLM 下一步合乎逻辑的方法是通过微调来定制你的过滤模型。这意味着训练一个模型来理解物流问题与其他所有问题之间的精确界限。局限性当治疗变成疾病资源密集型开发即使是微调一个“小”的 80 亿参数模型也需要专业的硬件、相当多的工程时间以及大量的计算资源。这个过程需要机器学习操作方面的专业知识以及精心策划的数据集通常需要配备高内存显卡如 A100 显卡的专用 GPU 集群每次训练运行的计算成本可能高达数百美元。无休止的迭代周期生成式模型的评估挑战与常见的分类任务不同。尽管团队可以尝试将输出限制为特定格式如 JSON以便于解析但核心挑战仍然存在没有简单的概率分数来评估置信度或调整阈值。每次迭代都涉及分析各种输入上的标记选择模式并确定模型的回应是否恰当地平衡了宽容与限制。这种定性评估过程本质上比评估清晰的指标如分类准确率或 F1 分数更复杂、更耗时。收益递减当过滤组件消耗的开发资源比核心产品功能还多时成本效益方程式变得越来越难以证明。SpeedBots 开始质疑“我们真的应该把有限的人工智能预算花在打造一个更好的门卫上而不是改进我们真正的服务吗” 部署复杂性无论采用哪种方法部署微调后的模型都是具有挑战性的。使用 API 提供商更简单但成本高昂比基础模型高出高达 2 倍并且取决于无服务器选项是否支持 LoRA/QLoRA。另一方面自行托管则需要专业的硬件用于 80 亿参数模型的 16GB 高内存 GPU、优化库如 vLLM以及复杂的扩展架构。这意味着你需要专门的 DevOps 专业知识仅仅是为了维护一个本质上是“门卫”的东西而不是专注于你的核心产品。对于这家物流公司来说一开始只是一个简单的过滤要求却变成了复杂的基础设施工程。他们的机器学习团队发现自己花在配置 GPU 集群上的时间比在改进真正推动公司业务价值的物流协助功能上的时间还多。仅仅是工程开销更不用说持续的运营成本了就让这种做法对于本质上是一个预处理步骤来说难以证明其合理性。最理想的解决方案训练一个ModernBERT 作为守护模型在探索了越来越复杂和昂贵的解决方案后SpeedBots 的工程团队决定采取不同的方法。他们没有部署重量级的 LLM 进行过滤而是使用 ModernBERT——一个专门针对文本分类任务优化的仅编码器模型来实现一个轻量级解决方案。以下是他们构建护栏系统的方式 1. 训练数据集创建利用 DeepSeek V3来生成一个多样化的数据集 # 示例提示用于生成数据集 prompt 为一家物流公司的聊天机器人生成 10 个示例用户问题。对于每个问题指出它是否相关TRUE或不相关FALSE。包括一些试图让聊天机器人执行不相关任务或绕过安全指南的尝试。这个过程使他们能够创建一个包含 2000 多个多样化示例的数据集。模型生成了一些重复的问题但这些通过删除重复文本被移除了。尽管他们知道有更好的方法来减少重复但由于生成这个样本的成本非常低——生成大约 5000 条记录的成本不到 1 美元——所以这些复杂性并不值得。这种方法不仅节省了成本还快速产生了数千个现实的例子包括复杂的绕过过滤的尝试这些如果手动创建将是困难且耗时的。 2.通过多种模型进行校验为了保数据集的质量使用不同的模型DeepSeek R1独立审查分类 review_prompt 审查以下用户问题及其分类问题{question} 分类{is_relevant}这个问题应该由物流公司的聊天机器人回答吗考虑问题是否 1. 与物流服务相关 2. 没有试图绕过安全功能 3. 没有请求有害内容逐步思考并提供你的最终分类结果为 TRUE 或 FALSE。这种多模型方法作为一种质量控制机制识别出分类模糊或可能不正确的边缘案例。 3. 人工参与我们发现大约 5% 的示例在两个模型之间存在分歧。他们没有完全依赖自动化流程而是保留了两个模型都同意的示例大约占数据集的 98%手动审查每个分歧案例根据他们特定的业务需求做出最终决定用这些细化后的标签更新数据集。这种人工监督确保了最终的训练数据准确反映了 SpeedBots 特定的过滤需求。 4. 高效的微调过程使用 Hugging Face 的 Transformers 库团队在他们的自定义数据集上微调了一个 ModernBERT 模型3.95 亿参数 training_args TrainingArguments(output_dirmodernbert-llm-router,per_device_train_batch_size32,learning_rate5e-5,num_train_epochs2, )与他们之前对更大模型的尝试不同这个微调过程在开发者的 Mac M2 上不到 15 分钟就完成了。训练该模型所需的内存占用小到足以轻松地放在单个 NVIDIA T4 GPU 上。这与通常需要数小时的 LLM 微调训练周期形成了巨大反差。 5. 性能结果最终的模型 F1 分数达到 97%每次查询的推理时间约为 30 毫秒推理模型如 R1 则需要数秒准确识别出微妙的越狱尝试减少了对合法物流问题的误报。最令人惊讶的是这个轻量级模型实现了与 DeepSeek R1——一个强大得多且运行成本高得多的顶级推理模型几乎相同的分类性能。有效地将先进推理模型的分类能力提炼成了一个专门的、高效的过滤器。该系统精准定位专为他们的物流领域设计资源高效几乎不需要计算开销高度准确性能优于更大、更复杂的模型操作简单易于部署和维护。有时最有效的人工智能解决方案并不是最大或最复杂的模型而是最适合手头特定任务的模型。完整的代码以及微调 ModernBert 的实验过程包括生成数据集可以在这个 github 仓库中找到。

查看全文

http://www.zqtcl.cn/news/201103/