当前位置：首页 > news >正文

专做餐饮的网站wordpress 层实现

news 2025/11/16 2:17:47

专做餐饮的网站,wordpress 层实现,网站推广策划方案大数据精准获客,做物流的网站有哪些功能PS: 梳理该 Survey 的整体框架#xff0c;后续补充相关参考文献的解析整理。本文的会从两个角度来分析总结#xff0c;因此对于同一种技术可能在不同章节下都会有提及。第一个角度是从整体框架的迭代来看#xff08;对应RAG框架章节#xff09;#xff0c;第二个是从RAG中…PS: 梳理该 Survey 的整体框架后续补充相关参考文献的解析整理。本文的会从两个角度来分析总结因此对于同一种技术可能在不同章节下都会有提及。第一个角度是从整体框架的迭代来看对应RAG框架章节第二个是从RAG中不同组成部分来看对应 RetrieverGenerator 和 Augmentation in RAG。 https://arxiv.org/abs/2312.10997 Introduction 传统上神经网络通过微调模型来参数化知识从而适应特定领域或专有信息。虽然这项技术产生了显著的结果但它需要大量的计算资源成本高昂并且需要专门的技术专业知识使其不太适应不断变化的信息环境。参数化知识和非参数化知识发挥着不同的作用。参数知识是通过训练LLM获得的并存储在神经网络权重中代表模型对训练数据的理解和概括形成生成响应的基础。非参数知识存在于矢量数据库等外部知识源中不直接编码到模型中而是作为可更新的补充信息处理。纯参数化语言模型LLM将从大量语料库中获取的世界知识存储在模型的参数中。其局限性如下首先很难保留训练语料库中的所有知识尤其是不太常见和更具体的知识。由于模型参数不能动态更新参数知识很容易随着时间的推移而过时。参数的扩展导致训练和推理的计算费用增加。为了解决纯参数化模型的局限性语言模型可以采用半参数化方法将非参数化语料库数据库与参数化模型相集成。检索增强生成RAG, Retrieval-Augmented Generation) 最早由Lewis等人于2020引入将预先训练的检索器与预先训练的seq2seq模型生成器相结合并进行端到端的微调以更可解释和模块化的方式获取知识。在大型模型出现之前RAG主要专注于端到端模型的直接优化。在检索端进行密集检索例如Karpukhin等人使用基于向量的密集通道检索DPR, Dense Passage Retrieval) 以及在生成端训练较小的模型是常见的做法。由于总体参数较小检索器和生成器通常都会进行同步的端到端训练或微调。在LLM出现后生成语言模型成为主流在各种语言任务中表现出令人印象深刻的性能。然而LLM仍然面临挑战如幻觉、知识更新和数据相关问题。这影响了LLM的可靠性使其在某些严重的任务场景中举步维艰尤其是在需要获取大量知识的知识密集型任务中如开放领域问答和常识推理。参数内的隐性知识可能是不完整和不充分的。在随后的研究发现将RAG引入大型模型的上下文学习(ICL, In-Context Learning)可以缓解上述问题具有显著且易于实施的效果。背景知识 RAG 的定义在大型语言模型时代RAG的具体定义是指在回答问题或生成文本时首先从大量文档中检索相关信息的模型。随后它利用这些检索到的信息来生成响应或文本从而提高预测的质量。RAG方法允许开发人员避免为每个特定任务重新训练整个大型模型。总之RAG系统由两个关键阶段组成利用编码模型基于问题检索相关文档如BM25、DPR、ColBERT和类似方法生成阶段使用检索到的上下文作为条件系统生成文本 RAG vs Fine-tuning PS. 在某些情况下将这两种技术相结合可以实现最佳的模型性能。现有研究表明与其他优化大型语言模型的方法相比检索增强生成RAG具有显著的优势 RAG通过将答案与外部知识联系起来减少语言模型中的幻觉问题并使生成的回答更加准确可靠从而提高准确性。使用检索技术可以识别最新信息。与仅依赖训练数据的传统语言模型相比RAG保持了响应的及时性和准确性。透明度是RAG的一个优势。通过引用来源用户可以验证答案的准确性增加对模型输出的信任。RAG具有定制功能。通过对相关文本语料库进行索引可以针对不同领域定制模型为特定领域提供知识支持。在安全和隐私管理方面RAG凭借其在数据库中内置的角色和安全控制可以更好地控制数据使用。相比之下微调后的模型可能缺乏对谁可以访问哪些数据的明确管理。RAG的可扩展性更强。它可以处理大规模数据集而无需更新所有参数和创建训练集使其更经济高效。RAG产生的结果更值得信赖。RAG从最新数据中选择确定性结果而微调模型在处理动态数据时可能会出现幻觉和不准确缺乏透明度和可信度。 RAG 框架 Naive RAG Naive RAG涉及传统的过程索引、检索和生成因此也被概括为 “Retrieve”-“Read” 框架。 Indexing 从源获取数据并为其建立 index 的管道通常处于脱机状态。数据索引的构建包括以下步骤数据索引清理和提取原始数据将不同的文件格式如PDF、HTML、Word、Markdown等转换为纯文本。Chunking 这包括将加载的文本分成更小的块因为语言模型通常对其可以处理的上下文数量有限制因此有必要创建尽可能小的文本块。嵌入和创建索引这是通过语言模型将文本编码为矢量的过程。得到的向量将用于后续的检索过程以计算向量和问题向量之间的相似性。嵌入模型需要很高的推理速度。由于需要对大量语料库进行编码并在用户提问时实时对问题进行编码。 Retrieve 给定用户的输入使用与第一阶段相同的编码模型将查询转换为向量。计算问题嵌入和文档块在语料库中的嵌入之间的相似性。基于相似性水平选择前K个文档块作为当前问题的增强上下文信息。 Generation 给定的问题和相关文档将合并到一个新的提示中。大型语言模型的任务是根据所提供的信息回答问题根据不同任务的需要可以决定是允许大型模型使用其知识还是仅基于给定信息进行回答。 Naive RAG的缺点 Naive RAG在三个领域面临主要挑战检索质量主要问题是精度低检索集中的所有块都与查询相关这会导致潜在的幻觉和空中空投问题。低召回率。当没有检索到所有相关块时会出现这种情况从而阻止LLM获得足够的上下文来合成答案。过时的信息。即数据冗余或过时的数据可能导致不准确的检索结果。响应生成质量幻觉模型编造了一个上下文中不存在的答案。不相关模型生成的答案无法解决查询问题。毒性或偏倚即模型产生有害或冒犯性反应。扩增过程将检索到的段落中的上下文与当前的生成任务有效地结合起来至关重要。如果处理不当输出可能会显得不连贯或不连贯。冗余和重复特别是当多个检索到的段落包含相似的信息导致生成步骤中的内容重复时。确定多个检索到的段落对生成任务的重要性或相关性是具有挑战性的并且扩充过程需要适当平衡每个段落的值。检索到的内容也可能来自不同的写作风格或语调增强过程需要协调这些差异以确保输出的一致性。生成模型可能过度依赖增强信息导致输出仅重复检索到的内容而不提供新的价值或合成信息。 Advanced RAG 为了解决Naive RAG遇到的索引问题Advanced RAG通过滑动窗口、细粒度分割和元数据等方法优化了索引。在检索生成的质量方面结合了 pre-Retrieval 和 post-Retrieval 的方法。 Pre-Retrieval Process 可以通过优化数据索引提高索引内容的质量增强数据粒度预索引优化的目标是提高文本的标准化、一致性并确保事实的准确性上下文的丰富性和时间敏感性以保证RAG系统的性能。文本标准化包括去除不相关的信息和特殊字符。就一致性而言主要任务是消除实体和术语中的歧义同时消除重复或冗余信息以简化检索者的工作重点。确保事实的准确性至关重要只要可能就应核实每一条数据的准确性。上下文保留以适应系统在现实世界中的交互上下文可以通过添加另一层具有特定领域注释的上下文再加上通过用户反馈循环不断更新来实现。时间敏感性是重要的上下文信息应设计机制来刷新过时的文档。优化指标结构这可以通过调整块的大小、更改索引路径和合并图结构信息来实现。调整块small to big的方法包括收集尽可能多的相关上下文并将噪声最小化。当构建RAG系统时chunk size是关键参数。跨多个索引路径查询的方法与以前的元数据过滤和分块方法密切相关并且可能涉及同时跨不同索引进行查询。引入图结构包括将实体转换为节点将它们的关系转换为关系。这可以通过利用节点之间的关系来提高准确性尤其是对于多跳问题。使用图形数据索引可以增加检索的相关性。添加元数据信息这里的重点是将引用的元数据嵌入到块中。当我们将索引划分为多个块时检索效率就成了一个问题首先过滤元数据可以提高效率和相关性。路线优化此策略主要解决文档之间的一致性问题和差异。对齐概念包括引入假设问题创建适合每个文档回答的问题并用文档嵌入或替换这些问题。混合检索这种策略的优势在于利用不同检索技术的优势包括基于关键字的搜索、语义搜索和矢量搜索。 Embedding Fine-tuning Embedding微调的目的是增强检索内容和查询之间的相关性。通常微调嵌入的方法分为在特定领域上下文中调整嵌入和优化检索步骤。特别是在处理进化或稀有术语的专业领域这些定制的嵌入方法可以提高检索相关性。Dynamic Embedding动态嵌入根据单词出现的上下文进行调整不同于为每个单词使用单个向量的静态嵌入理想情况下嵌入应该包含尽可能多的上下文以确保“healthy”的结果。 Post-Retrieval Process 在从数据库中检索到有价值的上下文后将其与查询合并以输入LLM会带来挑战。同时向LLM呈现所有相关文档可能会超过上下文窗口限制。将大量文档连接起来形成冗长的检索提示是无效的这会引入噪声并阻碍LLM对关键信息的关注。为了解决这些问题有必要对检索到的内容进行额外处理 ReRank重新排序以将最相关的信息重新定位到提示的边缘是一个简单的想法。Prompt Compression重点在于压缩不相关的上下文突出关键段落并减少整体上下文长度。 RAG Pipeline Optimization 目前的研究主要集中在智能地结合各种搜索技术优化检索步骤引入认知回溯的概念灵活应用各种查询策略并利用嵌入相似性。探索混合搜索通过智能地混合各种技术如基于关键字的搜索、语义搜索和矢量搜索RAG系统可以利用每种方法的优势。递归检索和查询引擎递归检索需要在初始检索阶段获取较小的文档块以获取关键的语义。在这个过程的后期阶段具有更多上下文信息的较大块被提供给语言模型LM。后退提示在RAG过程中逐步后退的快速方法(Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models )鼓励LLM从特定的实例中后退并对基本的一般概念或原则进行推理。Subqueries可以在不同的场景中使用各种查询策略包括使用不同框架提供的查询引擎、使用树查询、使用向量查询或使用块的最基本的顺序查询。HyDE这种方法基于这样的假设即生成的答案在嵌入空间中可能比直接查询更接近。利用LLMHyDE生成一个假设文档答案来响应查询嵌入文档并使用这种嵌入来检索与假设文档相似的真实文档。与基于查询寻求嵌入相似性相比该方法强调从答案到答案的嵌入相似性。然而它可能不会始终产生有利的结果特别是在语言模型不熟悉所讨论主题的情况下这可能会导致更容易出错的实例的生成。 Modular RAG Modular RAG 结构打破了传统的 Naive RAG 索引、检索和生成框架在整个过程中提供了更大的多样性和灵活性。Modular RAG范式正在成为 RAG 领域的主流允许跨多个模块的串行管道或端到端训练方法。 New modules Search Module与Naive/Advanced RAG中查询和语料库之间的相似性检索不同搜索模块针对特定场景进行定制在此过程中使用LLM生成的代码、查询语言如SQL、Cypher或其他自定义工具对额外的语料库进行直接搜索。Memory Module利用LLM本身的记忆能力来指导检索其原理包括找到与当前输入最相似的记忆。Extra Generation Module在检索的内容中冗余和噪声是常见的问题。额外生成模块不是直接从数据源检索而是利用LLM生成所需的上下文。与直接检索相比LLM生成的内容更有可能包含相关信息。Task Adaptable Module简单来说就是根据不同的 task 构建 task-specific retrievers Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading专注于转换RAG以适应各种下游任务从预先构建的数据池中自动检索给定零样本任务输入的提示增强了任务和模型的通用性。Promptagator: Few-shot Dense Retrieval From 8 Examples利用LLM的泛化能力仅举几个例子就可以创建特定任务的端到端检索器。 Alignment Module查询和文本之间的一致性一直是影响RAG有效性的关键问题在模块化RAG时代研究人员发现在检索器中添加可训练的适配器模块可以有效缓解对齐问题。Validation Module检索不相关的数据可能会导致LLM中出现幻觉。因此可以在检索文档之后引入额外的验证模块以评估检索到的文档与查询之间的相关性。 New Pattern 模块化RAG的组织方法是灵活的允许根据特定的问题上下文替换或重新配置RAG过程中的模块。目前的研究主要探讨两种组织范式包括模块的添加或替换以及模块之间组织流动的调整。添加或更换模块添加或替换模块的策略需要维护检索读取的结构同时引入额外的模块来增强特定功能。例如Query Rewriting for Retrieval-Augmented Large Language Models 提出了重写检索-读取过程利用LLM性能作为重写器模块强化学习的奖励。这允许重写器调整检索查询从而提高读取器的下游任务性能调整模块之间的流动在调整模块之间的流程方面重点是增强语言模型和检索模型之间的交互。例如Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP引入了演示搜索预测框架将上下文学习系统视为一个明确的程序而不是一个终端任务提示以解决知识密集型任务。 Retriever 在RAG的中“R”代表检索在从庞大的知识库中检索前k个相关文档的RAG管道中发挥作用。如何得到一个好的 retriever 至关重要因此作者提出了三个方面的问题来探讨 How to acquire accurate semantic representations? 如何获取精准的语义表达 Chunk optimization在选择分块策略时重要的考虑因素包括被索引内容的特征、使用的嵌入模型及其最佳块大小、用户查询的预期长度和复杂性以及检索结果如何在特定应用程序中使用。目前对 RAG 的研究采用了多种块优化方法来提高检索效率和准确性滑动窗口技术等技术通过多次检索聚合全局相关信息来实现分层检索。Small2big技术在搜索过程中使用小的文本块并将较大的附属文本块提供给语言模型进行处理。摘要嵌入技术对文档摘要执行TopK检索提供完整的文档上下文。元数据筛选技术利用文档元数据进行筛选。图形索引技术将实体和关系转换为节点和连接显著增强了多跳问题的相关性。 Fine-tuning Embedding Models嵌入模型的任务特定微调对于确保模型理解与内容相关性相关的用户查询至关重要而未微调的模型可能无法满足特定任务的需求。这通过领域知识注入和下游任务微调在一定程度上改进了语义表示但是这种微调过的 retriever 对LLM 模型来说没有直接帮助。嵌入微调方法有两个基本范式 Domain Knowledge Fine-tuning领域知识微调在目前微调嵌入模型的主要方法中使用的数据集由三部分组成包括查询、语料库和相关文档。Fine-tuning of downstream tasks下游任务的微调使嵌入模型适应下游任务同样重要。当在下游任务中使用RAG时一些工作通过使用LLM的功能对嵌入模型进行了微调。 How to Match the Semantic Space of Queries and Documents? 如何匹配查询和文档的语义空间? 用户的原始查询可能存在表达不佳和缺乏语义信息的问题。因此对齐用户查询和文档的语义空间是非常必要的。 Query Rewrite: 调整查询和文档语义的最直观方法是重写查询。例如Query2doc: Query Expansion with Large Language Models 利用大型语言模型的固有能力通过引导生成伪文档然后将原始查询与该伪文档合并形成新的查询。Embedding Transformation如果有像重写查询这样的粗粒度方法那么也应该有专门用于嵌入操作的细粒度实现。例如LlamaIndex 中可以在查询编码器之后连接适配器并微调适配器以优化查询嵌入的表示将其映射到更适合特定任务的潜在空间。当查询和外部文档的数据结构不同时例如非结构化查询和结构化外部文档使查询与文档对齐是非常重要的。 How to Aligning Retriever’s Output and LLM’s Preference? 如何调整检索器的输出和LLM的偏好在RAG pipeline 中即使我们采用上述技术来提高检索命中率也可能无法提高RAG的最终效果因为检索到的文档可能不是LLM所需要的。论文介绍了两种方法来调整检索器的输出和LLM的偏好 LLM supervised training 许多工作利用来自大型语言模型的各种反馈信号来微调嵌入模型。例如Augmentation-adapted retriever improves generalization of language models as generic plug-in. 通过编码器-编码器架构 LM 为预先训练的检索器提供监督信号。通过FiD交叉注意力得分确定 LM 的首选文档然后使用硬负采样和标准交叉熵损失对检索器进行微调。最终微调寻回器可以直接用于增强看不见的目标LM从而在目标任务中表现更好。Plug in an adapter由于诸如利用API来实现嵌入功能或本地计算资源不足之类的因素微调嵌入模型可能是具有挑战性的因此有些作品选择外部连接适配器进行对齐。例如RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation 提出了抽取式和生成式压缩器通过选择相关句子或合成文档信息来生成摘要以实现多文档查询焦点摘要。 Generator 在RAG中生成器的输入不仅包括传统的上下文信息还包括通过检索器获得的相关文本片段。这使生成器能够更好地理解问题背后的背景并产生信息更丰富的回答。此外生成器以检索到的文本为指导以确保生成的内容和检索到的信息之间的一致性。正是输入数据的多样性导致了生成阶段的一系列有针对性的工作所有这些工作都旨在使大型模型更好地适应查询和文档中的输入数据。如何得到一个好的 Generator 也是非常重要的本文从两个方面分析了这个问题 How Can Retrieval Results be Enhanced via Post-retrieval Processing? 如何通过检索后处理增强检索结果检索后处理是指对检索器从大型文档数据库中检索到的相关信息进行进一步处理、过滤或优化的过程。其主要目的是提高检索结果的质量以更好地满足用户需求或后续任务。 Information CompressionPrompt Compression: 简言之信息浓缩的重要性主要体现在以下几个方面减少噪音、应对上下文长度限制和增强生成效果。例如Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! 提出了“过滤-排序”范式该范式融合了大型语言模型LLM和小型语言模型SLM的优势。在这个范例中SLM充当过滤器而LLM充当重新排序代理。通过促使LLM重新排列SLM识别的困难样本的部分研究结果表明在各种信息提取IE任务中都有显著改进。ReRank核心思想包括重新排列文档记录将最相关的项目放在顶部从而将文档总数减少到固定数量。Open-source Large Language Models are Strong Zero-shot Query Likelihood Models for Document Ranking.发现这不仅解决了检索过程中可能遇到的上下文窗口扩展问题而且有助于提高检索效率和响应能力。 How to Optimize a Generator to Adapt Input data? 如何优化生成器以适应输入数据优化生成器的目标是确保生成的文本既自然又有效地利用检索到的文档从而更好地满足用户的查询需求。需要注意的是RAG中微调生成器的方法基本上类似于LLM的一般微调方法。 General Optimization Process指包含成对输入输出的训练数据旨在训练模型在给定输入x的情况下生成输出y的能力。例如在Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory的工作中采用了相对经典的训练过程。给定输入x检索相关文档z在论文中选择Top-1在对xz进行积分后模型生成输出y。该工作利用了两种常见的微调范式即 Joint-Encoder和Dual-Encoder。Utillizing Contrastive Learning在准备训练数据的阶段通常生成输入和输出之间的成对交互。在这种情况下模型只能访问唯一的真实输出这可能会引发“暴露偏差”问题在训练阶段模型只暴露于单个真实反馈而不访问任何其他生成的令牌。这可能会损害模型在应用中的性能因为它可能过于适合训练数据中的特定反馈而不会有效地推广到其他场景。Structure-Aware Language Model Pretraining Improves Dense Retrieval on Structured Data 的工作在处理涉及结构化数据的检索任务时利用三阶段训练过程来充分理解结构和语义信息。具体来说在检索器的训练阶段采用了对比学习主要目标是优化查询和文档的嵌入表示。 Augmentation in RAG RAG in Augmentation Stages 作为一项知识密集型任务RAG在语言模型训练的预训练、微调和推理阶段采用了不同的技术方法。 Pre-training Stage自从预训练模型出现以来研究人员一直致力于通过预训练阶段的检索方法来提高预训练语言模型在开放领域问答QA中的性能。在预先训练的模型中识别和扩展隐含知识可能具有挑战性。例如Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval 引入了一种更模块化和可解释的知识嵌入方法。遵循掩蔽语言模型MLM范式REALM将预训练和微调建模为一个先检索后预测的过程其中语言模型通过基于掩蔽句子x预测掩蔽标记y来进行预训练。趋势随着标度定律的发现模型参数迅速增加使自回归模型成为主流。总结从积极的方面来看这种方法提供了一个更强大的基础模型在困惑、文本生成质量和下游任务性能方面优于标准GPT模型。纯预训练的模型相比它通过使用更少的参数来实现更高的效率也存在一些缺点包括需要大量的预训练数据和更大的训练资源以及更新速度较慢的问题。 Fine-tuning Stage在下游微调阶段研究人员采用了各种方法来微调检索器和生成器以改进信息检索主要是在开放领域的问答任务中。总结微调LLM和检索器可以更好地适应特定任务提供同时微调一个或两个的灵活性。这种微调的好处扩展到适应不同的下游任务使模型更加通用。微调使模型能够更好地适应各种语料库中的不同数据结构特别有利于图结构语料库。这一阶段的微调也有局限性例如需要专门为RAG微调准备的数据集以及与推理阶段的RAG相比需要大量的计算资源。 Inference Stage推理阶段增强方法具有重量轻、成本效益高、不需要额外训练以及利用强大的预训练模型的优点。主要优势在于在微调过程中冻结LLM的参数专注于提供更适合需求的上下文具有快速和低成本的特点。这种方法也有一些局限性包括需要额外的数据处理和流程优化同时受到基础模型能力的限制。这种方法通常与过程优化技术相结合如逐步推理、迭代推理和自适应检索以更好地满足不同任务的要求。 Augmentation Data Source Augmented with Unstrctured Data就文本粒度而言除了常见的组块包括句子之外检索单元可以是标记、短语和文档段落。在单词级别FLARE采用主动检索策略仅当LM生成低概率单词时才进行检索。在组块级别RETRO使用前一个组块来检索最近的相邻组块并将该信息与前一组块的上下文信息集成以指导下一组块生成。Augmented with Structured Data像知识图KG这样的结构化数据源逐渐被整合到RAG的范式中。经过验证的KGs可以提供更高质量的上下文降低模型幻觉的可能性。LLM Generated Content RAG这种方法利用LLM本身生成的内容进行检索旨在提高下游任务的性能。 Augmentation Process 目前优化检索过程的方法主要包括迭代检索和自适应检索。这些允许模型在检索过程中多次迭代或者自适应地调整检索过程以更好地适应不同的任务和场景。 Iterative Retrieval在多次迭代检索中提供额外的参考提高了后续答案生成的稳健性。然而这种方法可能在语义上是不连续的并可能导致收集有噪声和无用的信息因为它主要依赖于n个令牌的序列来分离生成和检索的文档。递归检索可以首先通过结构化索引处理数据然后逐级检索。当检索层次丰富的文档时可以为整个文档或长PDF中的每个部分进行摘要。然后基于该摘要执行检索。在确定文档后对内部块进行第二次检索从而实现递归检索。Adaptive Retrieval事实上前两节中描述的RAG方法遵循被动方法其中检索是优先的。这种方法涉及查询相关文档并根据上下文输入LLM可能会导致效率问题。引入自适应检索方法优化了RAG检索过程使LLM能够主动判断检索的时间和内容。 RAG Evaluation Evaluation Methods Independent Evaluation Retrieval Module一套衡量系统如搜索引擎、推荐系统或信息检索系统根据查询或任务对项目进行排名的有效性的指标通常用于评估RAG检索模块的性能。示例包括命中率、MRR、NDCG、精度等。Generation Module这里的生成模块是指通过将检索到的文档补充到查询中而形成的增强或合成输入与通常端到端评估的最终答案/响应生成不同。生成模块的评估指标主要集中在上下文相关性上测量检索到的文档与查询问题的相关性。 End-to-End Evaluation端到端评估评估RAG模型对给定输入生成的最终响应包括模型生成的答案与输入查询的相关性和一致性。从内容生成目标的角度来看评价可以分为未标记内容和标记内容。未标记内容评估指标包括答案保真度、答案相关性、无害性等而标记内容评估标准包括准确性和EM。 Key Metrics and Abilities Key Metrics Faithfulness该指标强调模型生成的答案必须与给定的上下文保持一致确保答案与上下文信息一致不会偏离或矛盾。评估的这一方面对于解决大型模型中的幻觉至关重要。Answer Relevance这个指标强调生成的答案需要与提出的问题直接相关。Context Relevance该度量要求检索到的上下文信息尽可能准确和有针对性避免不相关的内容。该度量反映了RAG检索模块的搜索优化水平。低召回率表明潜在地需要优化搜索功能例如引入重新排序机制或微调嵌入以确保更相关的内容检索。 Key abilities Noise Robustness该度量反映了RAG检索模块的搜索优化水平。低召回率表明潜在地需要优化搜索功能例如引入重新排序机制或微调嵌入以确保更相关的内容检索。Negative Rejection当模型检索到的文档缺乏回答问题所需的知识时模型应该正确地拒绝响应。在阴性拒绝的测试设置中外部文件仅包含噪音。理想情况下LLM应发出“信息不足”或类似的拒绝信号。Information Integration这种能力评估模型是否可以集成来自多个文档的信息来回答更复杂的问题。Counterfactual Robustness该测试旨在评估当收到关于检索信息中潜在风险的指令时模型是否能够识别和处理文档中的已知错误信息。反事实稳健性测试包括LLM可以直接回答的问题但相关的外部文件包含事实错误。 Evaluation Frameworks 最近LLM社区一直在探索使用“LLM作为判断”进行自动评估许多LLM使用强大的LLM如GPT-4来评估自己的LLM应用程序输出。在RAG评估框架领域RAGAS和ARES是相对较新的。这些评估的核心重点是三个主要指标答案的真实性、答案相关性和上下文相关性 RAGAS Assessing Answer Faithfulness使用LLM将答案分解为各个语句并验证每个语句是否与上下文一致。最终通过将支持的陈述数量与陈述总数进行比较来计算“可信度分数”。Assessing Answer Relevance 使用LLM生成潜在问题并计算这些问题与原始问题之间的相似性。答案相关性得分是通过计算所有生成问题与原始问题的平均相似性得出的。Assessing Context Relevance使用LLM生成潜在问题并计算这些问题与原始问题之间的相似性。答案相关性得分是通过计算所有生成问题与原始问题的平均相似性得出的。 ARESRAGAS作为一种基于简单手写提示的较新评估框架对新的RAG评估设置的适应性有限这也是ARES工作的意义之一。 Generating Synthetic DatasetARES最初使用语言模型从目标语料库中的文档中生成合成问题和答案以创建正样本和负样本。Preparing LLM JudgesARES使用合成数据集对轻量级语言模型进行微调以训练它们评估上下文相关性、答案可信度和答案相关性。Ranking RAG Systems Using Confidence IntervalsARES应用这些判断模型对RAG系统进行评分并使用PPI方法将其与手动注释的验证集相结合以生成置信区间从而可靠地估计RAG系统的性能。 Future Prospects Vertical Optimization of RAG RAG中的长上下文问题RAG的鲁棒性RAG和Fine-tuning协同工作RAG的工程实践 Ecosystem of RAG Downstream Tasks and EvaluationRAG模型不仅提高了下游应用中信息的准确性和相关性还增加了响应的多样性和深度。同时改进RAG的评估系统以评估和优化其在不同下游任务中的应用对于该模型在特定任务中的效率和效益至关重要。此外通过RAG增强模型的可解释性让用户更好地了解模型如何以及为什么做出特定响应也是一项有意义的任务。Technical Stack 在RAG的生态系统中相关技术堆栈的开发起到了推动作用。例如随着ChatGPT的普及LangChain和LLamaIndex迅速广为人知。它们都提供了一套丰富的RAG相关API逐渐成为大模型时代不可或缺的技术之一。除了AI原生框架传统软件或云服务提供商也扩大了服务范围。例如矢量数据库公司Weaviate提供的Verb7专注于个人助理。亚马逊为用户提供了基于RAG思想的智能企业搜索服务工具Kendra。

查看全文

http://www.zqtcl.cn/news/902124/