当前位置：首页 > news >正文

cms 学校网站挂机赚一小时75元

news 2025/11/14 18:31:50

cms 学校网站,挂机赚一小时75元,wordpress 同步到微博,网站做字工具一、前言在探索大语言模型#xff08;LLM#xff09;应用的新架构时#xff0c;知名投资公司 Andreessen Horowitz 提出了一个观点#xff1a;向量数据库是预处理流程中系统层面上最关键的部分。它能够高效地存储、比较和检索高达数十亿个嵌入#xff08;也就是向量LLM应用的新架构时知名投资公司 Andreessen Horowitz 提出了一个观点向量数据库是预处理流程中系统层面上最关键的部分。它能够高效地存储、比较和检索高达数十亿个嵌入也就是向量。那么为什么要如此强调向量数据库的重要性呢这是因为计算机虽然功能强大但并不擅长直接理解文本、图像、音频等人类友好的数据格式。通过将这些数据转换成数值型的“向量”我们能够让计算机更高效地处理它们。而普通的数据库并不是为了处理这样的向量而设计的尽管现在随着生成式 AI 技术的普及它们开始逐渐支持向量操作。在深度学习领域大语言模型LLM和嵌入模型是两个非常关键的组成部分。嵌入模型是将语言转化为向量空间的模型而大语言模型则是一种能够生成自然流畅语言的深度学习模型。现有的嵌入模型已经在检索增强生成RAG等应用中取得了不错的效果但在特定领域和任务中它们的表现仍然存在缺陷。因此在一些特定领域的场景下定制化的微调训练嵌入模型也比较重要可以根据特定的业务需求进行训练更好地理解和把握业务语境提升整体的业务表现。但由于训练个性化嵌入模型面临着成本高、复杂度高等挑战所以一般我们在实际的业务场景落地的时候都会选择OpenAI提供的嵌入模型或一些开源的嵌入模型这些模型都属于预先训练好的通用型的嵌入模型适用于一般应用的嵌入模型对于特定场景的语义会存在一定的空白。不过微软的研究者们在一篇新论文中提出了一项技术这项技术大幅降低了训练个性化嵌入模型的成本和复杂度。该技术采用开源的大语言模型而不是BERT类的编码器作为基础简化了重训练的步骤并利用专有专有的大语言模型自动产生带标签的训练数据。这样的研究为新的LLM应用打开了大门也使得各个组织能够根据自己的需求打造定制化的LLM。接下来就让我们一起来简单回顾一下为什么向量嵌入如此关键。本文将带你了解向量、向量嵌入以及向量数据库的基础知识并介绍如何利用大语言模型LLM打造定制化的 Embedding 模型。二、什么是向量究竟什么是向量呢向量是通过一组固定长度的数字来表征这组数字既反映了量的大小也指明了方向。至少需要两个维度的数据才能构成一个向量比如在平面上的点 [1,1]。同理三维空间中的点可以表示为 [1,1,1] 在机器学习领域一个向量可能包含成千上万个维度这已经多到我们难以直观展示。但关键在于一旦将对象转换为数学向量我们就可以利用向量运算进行距离测量、相似度计算和变换等操作。这些运算对于相似性搜索、聚类、分类和揭示模式与趋势等多种任务至关重要。三、什么是向量嵌入Vector Embedding 向量嵌入简称“嵌入”是将通常无法直接量化的数据对象转化为数字向量形式。这些嵌入能够在一个更紧凑的格式中捕捉到原始数据的本质属性和相互关系它们在机器学习领域有着广泛应用。举个例子一个包含数百万像素点的图像每个像素点都有其独特颜色、色调和对比度其向量嵌入可能只包含几百或几千个数值。这样嵌入就能在一个更低维度的空间中有效编码原始数据的重要信息从而实现数据的高效存储、检索和计算。简单的嵌入技术可能会产生稀疏嵌入Sparse Embeddings这意味着向量中许多值可能是0而更为复杂和高级的嵌入技术则能创造出稠密嵌入Dense Embeddings几乎不含0值。但是稀疏嵌入的维度通常比稠密嵌入要高因此需要更多的存储空间。与原始数据可能的复杂性和异质性不同嵌入旨在以一种更规范和结构化的方式捕捉数据的精髓。这一转换过程由称为嵌入模型Embedding Model的工具完成通常涉及到复杂的机器学习技术。这些模型负责处理数据对象从中提炼出有意义的模式和关系并生成向量嵌入这些嵌入随后可以被算法用来执行各种任务。四、向量嵌入的主要应用场景当我们掌握了这些向量嵌入技术之后它可以帮我们完成哪些任务呢相似性搜索通过比较嵌入之间的相似度我们可以在自然语言处理NLP领域找出内容相近的文档或是互有关联的单词。聚类与分类将嵌入作为机器学习模型中的输入特征帮助算法学会如何将相似的事物归为一组并对各种对象进行分类。信息检索运用向量嵌入我们可以打造出强大的搜索引擎快速地根据用户的搜索需求找到他们想要的文档或多媒体内容。推荐系统基于用户以往的喜好和行为数据通过向量嵌入技术为用户个性化推荐商品、文章或其他媒体内容。可视化在二维或三维空间中展示这些嵌入让我们能直观地看到数据之间的关系和其中的模式。迁移学习利用已经训练好的嵌入作为新项目的跳板借此发挥现有知识的力量减少我们在新任务上的训练工作量。五、训练嵌入模型所面临的挑战嵌入模型能够生成数值化表示从而捕捉输入数据的核心特征。例如词嵌入揭示了词汇的语义含义而句子嵌入则揭示了句子中词与词之间的关联。图像嵌入则代表了输入图像的视觉特质。这些嵌入对于各种任务都非常有用比如比较两个单词、句子或文本之间的相似性。其中一个重要的应用是结合大语言模型进行检索增强生成RAG。在RAG中嵌入帮助寻找和获取与用户输入相关的文档。这些文档的内容被并入用户输入中并指导大语言模型基于这些文档生成回应。RAG允许大语言模型避免生成不相关或错误信息并解决需要超出其训练数据集范围信息的任务。 RAG的质量极度依赖于嵌入模型的优劣。如果嵌入未能正确抓取文档特征与用户输入相匹配那么RAG系统就无法获取到相关文档。在专有数据上训练嵌入模型是提升其在特定应用中质量的途径之一。但现行流行的方法是一个多阶段训练过程首先在一个包含大量弱监督文本对的数据集上通过对比学习进行训练接着在一个规模较小但高质量、标签明确的样本集上进行微调。这种方法存在一个问题它需要大量工程投入来策划相关文本对并且依赖手动收集的数据集这些数据集往往只覆盖有限的任务和语言这就是为什么大多数情况下我们使用一些通用的嵌入模型效果不太理想的原因。六、大语言模型在嵌入任务中的新应用生成高级检索任务的提示来源arxiv 微软提出了一种新技术它可以在一个阶段内完成嵌入训练这与传统的两阶段训练方法不同。他们利用了像GPT-4这样的专有大语言模型LLM来生成适用于各种嵌入任务的合成数据。首先研究人员会让GPT-4生成一系列可能的任务。然后这些任务被用来生成训练用的数据样例。提示生成检索任务的示例来源arxiv 我在ForeFront平台上对这一过程进行了简化测试。ForeFront允许用户在GPT-4和Claude的基础上轻松创建无需编程的工作流程。在测试的第一阶段我得到了一系列抽象的任务描述 [Retrieve case law that supports or opposes a specific legal argument.,Find recipes based on a list of ingredients provided in the query.,Search for news articles related to a particular event or phenomenon.,Locate scholarly articles that discuss the efficacy of a certain medical treatment.,Identify historical documents that mention a specific figure or event.,Gather financial reports related to a particular industry or company.,… (redacted) ] 进入第二阶段我将其中一个任务描述输入给GPT-4并指导它构造出一个包含具体用户提示以及每个包含150个词的正反例子的JSON结构。除了在一个困难负面例子的最后一句出现了些许偏差外整个结果接近完美但这个小错误可能会对嵌入结果造成影响 {user_query: Looking for a vegetarian chili recipe that uses black beans, quinoa, and sweet potatoes,positive_document: This hearty vegetarian chili is the perfect way to warm up on a chilly day. Begin by sautéing one diced onion and three cloves of minced garlic in olive oil until translucent. Add one diced bell pepper and two diced sweet potatoes and cook until slightly soft. Stir in two cups of vegetable broth, one can of black beans (rinsed and drained), one cup of cooked quinoa, one can of diced tomatoes, and one can of tomato paste. Season with two tablespoons of chili powder, one teaspoon of cumin, and salt and pepper to taste. Let the chili simmer for 30 minutes, stirring occasionally. Serve hot, garnished with avocado, cilantro, and a squeeze of lime juice.,hard_negative_document: This delicious sweet potato and black bean burrito bowl is a great vegetarian meal. Start by roasting two diced sweet potatoes in the oven with olive oil, salt, and pepper until golden and tender. Meanwhile, cook one cup of quinoa as per package instructions. In a pan, cook one can of black beans with one diced onion, two cloves of garlic, and one tablespoon of cumin until heated through. Assemble your bowls by placing a scoop of quinoa at the bottom, followed by the roasted sweet potatoes, and the black bean mixture. Top with sliced avocado, fresh cilantro, and a dollop of sour cream. While this recipe shares ingredients with the users query, it is not a chili recipe. } 微软的研究团队并未公开他们实验的源代码或数据集。可以参考下文提供的脚本展示了一个极其简化的实验流程。这个流程非常灵活你可以根据自己的需求调整模板。 https://github.com/Crossme0809/frenzyTechAI/blob/main/embedding/Generate_Examples_for_Embedding_Training.ipynb 为了让数据集更加多元化研究人员设计并应用了多种提示模板。最终他们通过Azure OpenAI Service使用GPT-3.5和GPT-4生成了50万个训练样例并设计了15万个独特任务指令。整个过程消耗了大约1.8亿个Token成本约为5000美元。值得注意的是研究人员选择了对开源自回归模型进行微调而不是常见的双向编码器模型如BERT。因为这些模型已经在大规模数据集上进行了预训练所以可以以较低成本进行嵌入任务的微调。他们在合成数据和13个公开数据集上对方法进行了测试。通过应用各种降低成本的技术例如LoRA一种低秩适应技术他们取得了令人瞩目的成果。在多个公认的基准测试中他们不仅达到了非常好的效果甚至在RAG和嵌入质量基准上超过了OpenAI的Ada-002和Cohere的嵌入模型。七、大语言模型与特征嵌入这篇论文的核心观点是在训练如Mistral-7B这类自回归模型进行特征嵌入任务时并不需要经历成本高昂的对比学习预训练阶段。研究者指出“广泛的自回归预训练让大语言模型LLM能够获取到优质的文本表示并且仅需少量进一步优化就可以将其转换成高效的特征嵌入模型。” 从他们的研究结果表明大语言模型应当能以极低的成本生成适合进一步优化特征嵌入模型所需的训练数据。这一点对于未来大语言模型应用可能具有重要意义它使得各种组织能够为他们的应用定制特征嵌入方式。研究者们提出“我们认为生成语言建模与文本特征嵌入是一枚硬币的两面这两项任务都要求模型对自然语言有深刻的理解。在得到一个特征嵌入任务的定义后一个真正强大的大语言模型应该能够自主生成训练数据随后通过简单的精调变为一个特征嵌入模型。我们的实验为这一方向的潜力提供了线索但还需要更多的研究去深入探讨。” 八、总结在大语言模型的应用场景中定制化的嵌入模型的训练变得尤为重要。由于RAG等应用场景的检索准确性和生成质量高度依赖于嵌入模型的质量因此针对特定领域和任务的个性化嵌入模型的训练变得尤为重要。然而训练个性化嵌入模型面临着成本高昂、复杂度高等问题。微软提出了一种新的技术可以在一个阶段内完成嵌入训练这与传统的两阶段训练方法不同。他们利用了像GPT-4这样的专有大语言模型LLM来生成适用于各种嵌入任务的合成数据。这种方法可以大幅降低训练个性化嵌入模型的成本和复杂度。因此针对特定领域和任务的个性化嵌入模型的训练将成为未来大语言模型应用的重要方向。九、References [1]. Improving Text Embeddings with Large Language Models https://arxiv.org/abs/2401.00368

查看全文

http://www.zqtcl.cn/news/466344/