当前位置：首页 > news >正文

沈阳微信网站学工网站建设

news 2025/11/14 15:54:33

沈阳微信网站,学工网站建设,美妆网站怎么做,小广告模板Gemini#xff1a;一族功能强大的多模态模论文名称#xff1a;Gemini: A Family of Highly Capable Multimodal Models 论文地址#xff1a;https://arxiv.org/pdf/2312.11805 会议#xff1a; 论文方法#xff1a;该论文介绍了一种新的多模态模型系列#xff0c;Gem… Gemini一族功能强大的多模态模论文名称Gemini: A Family of Highly Capable Multimodal Models 论文地址https://arxiv.org/pdf/2312.11805 会议论文方法该论文介绍了一种新的多模态模型系列Gemini在图像、音频、视频和文本理解方面具有非凡的能力。Gemini系列包括Ultra、Pro和Nano三种规模适用于从复杂的推理任务到设备上的内存受限用例。论文实验结果在广泛的基准测试中该论文最先进的Gemini Ultra模型在32个基准测试中有30个取得了最新的进展特别是首次在公认的考试基准MMLU上达到人类专家水平并在该论文检查的20个多模态基准测试中改进了最新的技术水平。该论文相信Gemini模型在跨模态推理和语言理解方面的新能力将能够支持各种用例并讨论了该论文在负责任地向用户部署它们方面的方法。评估GPT4-V在结构化推理任务上的表现论文名称Assessing GPT4-V on Structured Reasoning Tasks 论文地址https://arxiv.org/pdf/2312.11524 机构OpenAI Github 地址会议论文方法这篇论文主要评估了最新的语言模型GPT-4V和其他五个基准模型在结构化推理任务上的表现。这些任务包括数学推理、视觉数据分析和代码生成。研究结果显示引入视觉Chain-of-Thought的多模态LLMs相比于普通模型有显著的提升。同时论文还对模型表现良好和困难的场景进行了分类分析突出了多模态推理中所面临的挑战。 ProTIP: 渐进式工具检索改善规划论文名称ProTIP: Progressive Tool Retrieval Improves Planning 论文地址https://arxiv.org/pdf/2312.10332 机构 Github 地址会议论文方法这篇论文介绍了一种名为ProTIP的渐进式工具检索框架用于复杂的多步骤规划任务。该框架通过对比学习的方式隐式地进行任务分解同时保持子任务-工具的原子性。在ToolBench数据集上ProTIP在工具检索方面超越了基于ChatGPT的任务分解方法并且在TR的RecallK10方面提高了24在计划生成方面工具准确性提高了41。 LLaVA经典的多模态大模型第一阶段预训练阶段。在这个阶段只训练线性映射层(Projection W)目的是学习图像空间到语言模型词向量空间的映射这阶段使用的数据集为CC3M 第二阶段微调阶段。在这阶段冻结住视觉编码器的参数训练线性映射层和大语言模型的参数。在这一阶段使用的数据集为ScienceQA和基于GPT-4生成的数据集。将Clip作为图像的编码器在Clip后面加入一个线性映射层; 将Clip编码后的图像特征 Zu 映射到语言模型特征空间中得到视觉特征 Hv ; 将其和文本的编码语言指令的编码一起送入到Language Model中。论文名称Visual Instruction Tuning 论文地址https://arxiv.org/abs/2304.08485 机构微软研究院和哥伦比亚大学 Github 地址https://github.com/haotian-liu/LLaVA 会议动机像ChatGPT这种大语言模型只接受文字输入那么如何让大语言模型接收图像输入呢论文方法LLaVA提出了一种方法训练方式实验效果该模型展示出了一些接近多模态 GPT-4 的图文理解能力相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答Science QA上进行微调时LLaVA 和 GPT-4 的协同作用实现了 92.53%准确率的新 SoTA。 LLaVAR增强的视觉指令微调预训练只训练视觉编码器到LLM编码器之间的映射层采用LLaVA从CC3M中过滤的595k图文以及新构建的422k粗糙数据微调训练视觉编码器到LLM编码器之间的映射层和LLM采用LLaVA基于MSCOCO构建的158k指令数据以及新构建的16k指令数据训练模型的指令理解能力同时微调LLM以及图文之间的映射层视觉encoder V对于224x224分辨率的输入采用CLIP-ViT-L/14对于336x336分辨率的输入采用CLIP-ViT-L/14-336。最后一层Transformer Layer输出的特征通过过一个映射矩阵 W 映射到语言Decoder的单词嵌入空间语言Decoder D采用基于LLAMA的Vicuna-13B 论文名称LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding 论文地址https://arxiv.org/pdf/2306.17107.pdf 机构佐治亚理工、Adobe和斯坦福 Github 地址https://github.com/SALT-NLP/LLaVAR 会议动机论文方法用OCR的工具从LAION数据集收集了422K包含文本信息的图片然后用从图片中识别的文字以及图片的caption作为提示词用text only的GPT-4生成了16K对话每一个对话都包含和每一张图片关联的问题-回答 pair。文中集合收集的这些对话数据集以及LLaVA的对话数据训练了可以对图片中的场景进行细致理解的LLaVAR模型。模型结构训练方式 Vary: Scaling up the Vision Vocabulary forLarge Vision-Language Models PDF 类文档的难点在于如何完整恢复图片、表格、标题、段落等内容形成一个文字版的文档。现有开源多模态大模型的问题对中文支持较差毕竟大部分训练数据还是以英文为主。文档级的识别程度不高毕竟多模态大模型也不是单纯做 OCR 任务的所以训练数据可能有欠缺在识别文档图像时出现容易缺少内容导致回答出现幻觉或者不准确。论文名称Vary: Scaling up the Vision Vocabulary forLarge Vision-Language Models 论文地址arxiv.org/abs/2312.06109 动机思路通过收集新的数据训练一个新的视觉编码器然后和原有的视觉编码器合并。 Instruct-Imagen: 多模式指导下的图像生成论文名称Instruct-Imagen: Image Generation with Multi-modal Instruction 机构谷歌研究院、Google DeepMind 相关领域指令微调、多模态论文地址https://arxiv.org/pdf/2401.01952 作者Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su 论文方法篇论文介绍了instruct-imagen一个解决异构图像生成任务并能够在未知任务上进行泛化的模型。它引入了多模式指导的图像生成一种利用自然语言将不同模态例如文本、边缘、样式、主题等综合起来的任务表示使得丰富的图像生成意图可以以统一的格式标准化。作者通过在一个两阶段框架中对预训练的文本到图像扩散模型进行微调来构建instruct-imagen。首先作者使用检索增强训练来使模型能够基于外部多模态上下文生成图像。随后作者在多样的图像生成任务上对微调后的模型进行微调这些任务需要对视觉语言进行理解例如基于主题的生成等每个任务都与一个包含任务本质的多模式指导相配对。在各种图像生成数据集上进行的人工评估表明instruct-imagen在领域内与先前的任务特定模型相媲美或超越并展示了对未知和更复杂任务的有希望的泛化能力。 LLaVA-φ: 高效的多模态助理与小型语言模型论文名称LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model 机构IDEA、华东师范大学相关领域指令微调、多模态论文地址arxiv.org/pdf/2401.02330 代码github.com/zhuyiche/llava-phi 作者Yichen Zhu, Minjie Zhu, Ning Liu 论文方法LLaVA-φ是一个高效的多模态助理利用最近先进的小型语言模型Phi-2的力量促进多模态对话。LLaVA-φ标志着紧凑多模态模型领域的显著进步。它证明了即使是具有仅2.7B参数的更小的语言模型只要它们经过高质量的语料库训练就可以有效地参与融合文字和视觉元素的复杂对话。该论文的模型在包括视觉理解、推理和基于知识的感知在内的公开可用基准测试上具有可称赞的性能。除了在多模态对话任务中表现出色之外该论文的模型还为在时间敏感环境和需要实时交互的系统如具身代理中的应用开辟了新的途径。它突显了更小的语言模型在保持更高资源效率的同时实现复杂的理解和交互水平的潜力。仅使用文本训练在零样本字幕生成中挖掘细粒度的图像-文本对齐论文名称Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training 机构上海科技大学相关领域多模态论文地址https://arxiv.org/pdf/2401.02347 代码https://github.com/Artanic30/MacCap 作者Longtian Qiu, Shan Ning, Xuming He 论文方法该论文通过对CLIP潜在空间的分析提出了一种通过仅使用文本训练的零样本图像字幕生成框架。通过挖掘图像子区域的视觉特征和文本描述中的信息损失可以减少模态差距并通过引入噪声注入和重新排序策略提高字幕生成性能。仅使用文本监督学习视觉-语言模型的提示学习论文名称Learning to Prompt with Text Only Supervision for Vision-Language Models 机构Google、苏黎世联邦理工学院相关领域预训练、多模态论文地址https://arxiv.org/pdf/2401.02418 代码hhttps://github.com/muzairkhattak/ProText 作者Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Muzammal Naseer 论文方法这篇论文通过仅使用文本数据从语言模型中学习提示结合了视觉信息和大语言模型的优势。通过这种方法可以实现对新类别和数据集的零样本转移减少了大语言模型提示工程的成本。无需海量数据全新AI模型轻松实现多模态知识检索标题Generative Multi-Modal Knowledge Retrieval with Large Language Models 关键词Embeddings、LLMs、多模态动机如果我们能够轻松地从大量的多模态信息中获取所需的特定知识那该有多方便论文方法来自清华大学和腾讯微信AI的研究人员提出了一种创新的端到端生成式框架——GeMKR用于多模态知识检索。它巧妙地利用了大型语言模型LLM的知识潜力并通过生成相关的知识线索来简化检索过程。更令人惊喜的是它无需海量数据就能实现高效训练并且在三个基准测试中均取得了显著提升。 GPT4OCR 篇 Large OCR Model多模态大模型的文字识别能力之痛由OCR大模型来缓解论文名称Large OCR Model:An Empirical Study of Scaling Law for OCR 论文地址https://arxiv.org/abs/2401.00028 论文示例https://large-ocr-model.github.io 论文背景多模态大模型最近在业界建设的如火如荼具备了很强的视觉-语言交互能力。但是其OCR能力也就是识别图片中文字的能力偏弱强如GPT-4V也似乎还不够看。在华南理工大学的一篇全面测评Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation中业界最强多模态大模型GPT-4V识别文字的能力比OCR专用模型低了几十个点论文框架我们构建了OCR大模型详细见下文。这是在多模态大模型LMM研究日益增长的背景下我们引入OCR大模型到Qwen-VL-Chat多模态大模型并在四个VQA任务上进行了详细测评如Table 5。结果表明OCR技术的引入显著提升了LMM在VQA任务上的精度证明了OCR在提升多模态大模型文本识别能力方面的重要性也展示了OCR在处理复杂视觉-语言交互任务中的潜力。 GPT4Video 篇 GPT4Video 视频理解模块。首先通过video feature extractor提取视频特征然后通过video abstractor对齐视频特征和LLM 大语言模型。使用LLaMA预训练的参数通过LoRA进行微调视频生成模块。将LLM输出的Prompt输入到Text-Video模型得到生成的视频。论文名称GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation 论文地址https://arxiv.org/abs/2311.16511 论文示例https://gpt4video.github.io/ 论文背景当前的多模态大语言模型MLLM已经验证多模态数据融合的有效性但没有工作去探索多模态信息的生成论文框架 PEFT 系列篇 Prompt 论文名称Prompt Tuning 论文地址https://arxiv.org/pdf/2107.13586.pdf Github 地址会议动机但是对于一个预训练的大语言模型来说这就仿佛好像是对于每个任务都进行了定制化十分不高效。是否存在一种方式可以将预训练语言模型作为电源不同的任务当作电器仅需要根据不同的电器任务选择不同的插座对于模型来说即插入不同的任务特定的参数就可以使得模型适配该下游任务。论文方法给预训练语言模型的一个线索/提示帮助它可以更好的理解人类的问题。 Instruction 论文名称Finetuned Language Models Are Zero-Shot Learners 论文地址https://arxiv.org/abs/2109.01652 Github 地址https://github.com/google-research/flan 会议动机PLM 在 Few-Shot 上表现一般都很好但是在 Zero-Shot 上就很一般了一个潜在的原因是模型很难执行和预训练不一样格式的 prompt。论文方法通过激发语言模型的理解能力利用给出更明显的指令/指示让模型去理解并做出正确的action。 self-instruct 论文名称Self-Instruct: Aligning Language Model with Self Generated Instructions 论文地址https://arxiv.org/abs/2212.10560 Github 地址https://github.com/yizhongw/self-instruct 会议动机在训练好的LLM上进行“指令调优”具有很好的将Zero-shot设置下的指令理解能力泛化到新任务上的超凡能力。然而这种方法很大程度上依赖于大型的语言模型以及人工编写的高指令数据这需要极大的人力和物力。论文方法通过在公开的LLM的接口上引导模型自己生成指令来提高LLM的指令跟随能力。这在LLM时代是一种高效的蒸馏方法即通过从高质量的预训练好的LLM上接口获取有监督的数据来调优模型将大模型的知识蒸馏出来部署到目标模型上。 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 增加adapter 主要问题在于推理时带来的额外计算量和延迟。优化prompt 前缀微调(Prefix Tuning)较难优化而且随着参数量增长性能并非单调变化。论文名称LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 论文地址 Github 地址https://github.com/microsoft/LoRA 会议动机论文方法在原模型旁边增加一个旁路通过低秩分解先降维再升维来模拟参数的更新量训练时原模型固定只训练降维矩阵A和升维矩阵B 推理时可将BA加到原参数上不引入额外的推理延迟初始化A采用高斯分布初始化B初始化为全0保证训练开始时旁路为0矩阵可插拔式的切换任务当前任务W0B1A1将lora部分减掉换成B2A2即可实现任务切换 DyLoRA使用动态无搜索低秩适应的预训练模型的参数有效微调 rank的值是固定的训练完成后不能修改。优化rank的值需要大量的搜索和努力。论文名称DyLoRA: Parameter-Efficient Tuning of Pretrained Models using Dynamic Search-Free Low Rank Adaptation 论文地址https://arxiv.org/pdf/2210.07558v2.pdf Github 地址https://github.com/huawei-noah/KD-NLP/tree/main/DyLoRA 会议动机LoRA存在的问题论文方法引入了一种动态低秩适应Dy-LoRA技术。通过对适配器模块在训练期间的不同秩所学到的表示进行排序为一系列的秩而不是单一的秩训练LoRA块。 LOMO利用有限的资源对大型语言模型进行全参数微调论文名称FULL PARAMETER FINE-TUNING FOR LARGE LANGUAGE MODELS WITH LIMITED RESOURCES 论文地址https://arxiv.org/abs/2306.09782 Github 地址https://github.com/OpenLMLab/LOMO 会议动机LoRA存在的问题论文方法提出了一种新的优化器LOw-Memory OptimizationLOMO它将梯度计算和参数更新融合在一步中以减少内存使用。通过将LOMO与现有的内存节省技术集成将内存使用降低到10.8与标准方法DeepSpeed解决方案相比。因此该方法使单台机器上的65B模型的全参数微调成为可能该机器配有8×RTX 3090每个显存为24GB。大型语言模型LLMs已经彻底改变了自然语言处理NLP但是训练LLMs需要大量的GPU资源; 虽然现有的方法着重于参数高效微调即微调或添加少量参数但很少有人解决了有限资源下调整LLMs的全部参数的挑战而全参数微调被认为比参数高效微调更为强大; QLoRA 4-bit NormalFloat提出一种理论最优的4-bit的量化数据类型优于当前普遍使用的FP4与Int4 Double Quantization相比于当前的模型量化方法更加节省显存空间。每个参数平均节省0.37bit对于65B的LLaMA模型大约能节省3GB显存空间 Paged Optimizers使用NVIDIA统一内存来避免在处理小批量的长序列时出现的梯度检查点内存峰值增加Adapter4-bit的NormalFloat与Double Quantization节省了很多空间但带来了性能损失作者通过插入更多adapter来弥补这种性能损失。在LoRA中一般会选择在query和value的全连接层处插入adapter。而QLoRA则在所有全连接层处都插入了adapter增加了训练参数弥补精度带来的性能损失。参数空间小LoRA中参与训练的参数量较少解空间较小效果相比全量微调有一定的差距微调大模型成本高对于上百亿参数量的模型LoRA微调的成本还是很高精度损失针对第二点可以采用int8或int4量化进一步对模型基座的参数进行压缩。但是又会引发精度损失的问题降低模型性能。论文名称QLoRA: Efficient Finetuning of Quantized LLMs 论文地址hhttps://arxiv.org/pdf/2305.14314.pdf Github 地址https://github.com/artidoro/qlora 会议动机LoRA微调中存在以下三个痛点论文方法 VeRA可调参数比LoRA小10倍的低秩微调方法低秩矩阵的重参数化。具体来说冻结一对随机初始化的矩阵这些矩阵在所有适配层之间共享然后引入可以逐层自适应的可训练缩放向量。如图所示类似于LoRA训练的缩放向量和低秩矩阵可以合并至原始权重中从而消除额外的推理延迟。 LoRA需要大量的可训练参数。基于Aghajanyan等人的研究内在维度的上限比这种方法中通常使用的秩要小的多。因此参数量可以进一步减少。 AdaLoRA通过动态分配参数从而进一步减少了可微调参数。但是我们认为存在另一种可以显著减少可训练参数且效果不会下降的方法。论文名称VeRAVector-based Random Matrix Adaptation 论文地址https://arxiv.org/pdf/2310.11454.pdf Github 地址会议动机LoRA微调中存在以下三个痛点论文方法仅用少量多语言数据即可进行多语言指令微调论文名称Multilingual Instruction Tuning With Just a Pinch of Multilinguality 相关领域指令微调机构谷歌研究院、特拉维夫大学作者Uri Shaham, Jonathan Herzig, Roee Aharoni 论文地址https://arxiv.org/pdf/2401.01854 Github 地址会议分析该论文通过研究多语言指令微调对多语言大语言模型LLMs的指令跟随能力的影响发现即使在单语微调中许多语言也能够将一些指令跟随能力转移到其他语言。此外通过在英语微调集上仅使用40个多语言示例可以大幅提高多语言指令跟随的性能不论在已见或未见的语言上。尽管在这些语言中的训练示例少10倍但总体上与单语微调模型相比使用多语言混合微调的模型在几种语言上表现出可比或更优的性能。最后通过将指令微调集中的语言数量从1增加到2、3或4可以增加跨语言通用性。实验结果表明通过使用极小的多语言指令响应集可以构建出大规模多语言指令微调的模型。大模型幻觉问题篇大语言模型的32种消除幻觉的技术你都了解吗今天介绍的这篇文章详细梳理了大语言模型幻觉消除技术将其系统的分为提示工程和模型开发两大类。提示工程涉及基于检索增强的方法、基于反馈的策略或提示微调模型开发则可分为多种方法包括新的解码策略、基于知识图谱的优化、新增的损失函数组成部分以及监督微调等。标题A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models 关键词Embeddings、LLMs、大模型幻觉动机大模型幻觉问题是计算机语言学中一个重要的研究方向。为减轻幻觉研究人员提出了多种策略比如反馈机制、外部信息检索等但一直缺少一篇详细综述将近期关于幻觉的研究工作串联起来。论文方法 GPT 系列篇 Table 解析篇【LLM】表链用于表格理解的推理链表格是一种在日常生活中广泛使用的常用数据格式。用语言模型理解表格数据可使各种下游任务受益比如基于表格的事实验证(table-based fact verification)和基于表格的问答(table-based question answering 。与纯文本不同通过与表格行和列的表格结构之间的交互来传递丰富的信息这增强了数据容量但也增加了语言模型理解它们的难度。因此表格数据推理是自然语言处理的一个重要方向越来越受学术界和业界的关注。近年来已经提出几种方法通过训练语言模型来处理表格理解问题。一个常见的方向是在语言模型中添加专门的嵌入层或注意力机制并通过恢复表格单元格或段落进行预训练。通过这种方式预训练模型意识到了表格结构。另一个方向是合成SQL查询-响应对并预训练一个编码器-解码器模型作为神经SQL执行器。最近大型语言模型(LLM)仅通过提示就在各种任务上取得出色表现这要归功于大规模预训练。一系列关于提示技术的工作通过设计推理链进一步提高了LLM的可靠性比如思维链(Chain-ofThought 、从最少到最多(Least-to-Most)、思维程序(Program-of-Thought)和思维树Tree-of-Thought)。不同的工作也探索了使用LLM来解决基于表格问题的可能性。然而这些方法通常以自由文本或代码的形式表示推理步骤这不太适合处理复杂表格的场景如图1(a)和图1(b)所示。论文名称Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding 论文地址https://arxiv.org/pdf/2401.04398.pdf 论文 Github地址会议动机论文方法另一方面表格上的推理通常涉及一系列中间推理步骤每个步骤都与特定的表格操作对齐。论文提出了CHAIN-OF-TABLE逐步进行推理逐步进行表格操作形成一系列表格。链中的表格是表格操作转换的表格表示中间推理结果。这个过程类似于思维链(Chain-of-Thought)中的推理思维。具体来说论文定义了一组表格操作如添加列、选择行、分组等这些操作在SQL和DataFrame开发中常用。然后提示LLM进行逐步推理。在每一步中LLM动态生成一个操作作为下一步所需的参数然后在表格上以编程方式执行该操作。这个操作可以通过添加详细的中间结果来丰富表格也可以通过删除不相关的信息来缩减表格。直观地可视化中间结果对于得出正确的预测至关重要。论文将转换后的表格反馈给下一步。这一迭代过程持续进行直到达到结束状态。推理步骤中获得的表格是比自由文本更好的结构化中间思考表示。最后CHAIN-OF-TABLE推理结果在表格中更容易为LLM导出问题的最终答案。小样本QA问答 MINPROMPT 优化策略一表调优优化策略二创建数据集:合成增强问题一缺失值识别问题二缺失值识别问题三表格问题解答论文名称MINPROMPT: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering 论文地址https://arxiv.org/pdf/2310.05007v1.pdf 论文 Github地址会议动机llm 读取表格论文方法 RAG 系列篇 RAG Trick篇 Self-RAG一种通过自我反思实现检索增强生成的 RAG 策略通过按需检索和自我反思来提高LLM的生成质量包括其事实准确性而不损害其多功能性。论文以端到端方式训练任意的LLM来学习反思自身的生成过程通过生成任务输出和间歇性的特殊token即反思token。反思token分为检索和评论token分别表示检索的需求和生成的质量论文名称Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection 论文地址https://arxiv.org/abs/2310.11511 论文 Github地址会议动机论文方法检索文段与 query 的不相关性这些方法不加区别地检索和合并了一定数量的检索文段无论是否需要检索或文段是否相关这会降低LLMs的多功能性或导致生成质量不佳Shi等人2023因为它们不加区别地检索文段无论事实支持是否有帮助; 生成的结果未必与检索的相关文段一致Gao等人2023因为这些模型没有明确训练以利用和遵循所提供文段的事实; Active RAG一种主动判断需不需要进行检索需要时再检索的 RAG 策略方法一FLARE with Retrieval Instructions 方法二Direct FLARE 论文名称Active Retrieval Augmented Generation 论文地址https://arxiv.org/pdf/2305.06983.pdf 论文 Github地址https://github.com/jzbjyb/FLARE 会议动机如果每一个step都去进行检索显然是有点冗余的问题论文方法 MINPROMPT 文档QA问答论文名称MemSum-DQA: Adapting an Efficient Long Document Extractive Summarizer for Document Question Answering 论文地址https://arxiv.org/pdf/2310.06436v1.pdf 论文 Github地址https://github.com/nianlonggu/MemSum-DQA 会议CIKM 2023 动机论文方法论文提出了「MemSum-DQA这是一种高效的文档问答 (DQA) 系统」它利用了MemSum一种长文档提取摘要器通过在解析文档中的每个文本块中添加所提供的问题和问题类型的前缀MemSum-DQA 有选择地从文档中提取文本块作为答案。 PDFTriage针对长结构化文档的问答论文名称PDFTriage: Question Answering over Long, Structured Documents 论文地址https://arxiv.org/pdf/2309.08872.pdf 论文 Github地址会议动机当文档不适合LLM的有限上下文窗口时可以部署不同的策略来获取相关上下文。论文方法生成文档元数据提取文档的结构元素并将其转换为可读的元数据基于 LLM 的分类查询 LLM 以从文档中选择精确的内容页面、部分、检索的内容; 使用检索到的内容进行回答根据问题和检索到的内容生成答案。 RAGTruth: 用于开发可靠的检索增强语言模型的幻化语料库论文名称RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models 论文地址https://arxiv.org/pdf/2401.00396 相关领域模型评估、数据集构建 Github 地址会议论文方法本文介绍了RAGTruth一个专门用于在LLM应用的标准RAG框架中分析各个领域和任务中的单词级幻象的语料库。RAGTruth包括来自不同LLM使用RAG的近18000个自然生成的回复。这些回复经过精细的手动注释包括对幻觉强度的评估。该论文不仅对不同LLM的幻觉频率进行了基准测试还对几种现有的幻觉检测方法的有效性进行了批判性评估。此外该论文还展示了使用高质量数据集如RAGTruth可以对相对较小的LLM进行微调并在幻觉检测方面与使用GPT-4等最先进的大语言模型的现有提示式方法实现了具有竞争力的性能水平。 RAG应用领域篇医疗领域QA问答 Expert-Level Medical Question-Answering 医疗可信QA问答论文名称Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models 论文地址https://arxiv.org/ftp/arxiv/papers/2310/2310.11266.pdf 动机为了满足医疗保健领域对先进临床问题解决工具的迫切需求。论文方法论文推出了「BooksMed这是一种基于大型语言模型(LLM)的新颖框架」。BooksMed模拟人类认知过程提供具有依据的可靠响应利用GRADE建议、评估、开发和评估框架量化依据强度。 Medical Question-Answering by Expectation Maximization Inference over Evidence 医疗QA问答论文名称Generating Explanations in Medical Question-Answering by Expectation Maximization Inference over Evidence 论文地址:https://arxiv.org/pdf/2310.01299v1.pdf 动机医疗问答医疗 QA系统在协助医护人员寻找问题答案方面发挥着重要作用。然而仅通过医学 QA 系统提供答案是不够的因为用户可能需要解释即用自然语言进行更多分析性陈述描述支持答案的元素和上下文。论文方法论文提出了一种新方法「为医学 QA 系统预测的答案生成自然语言解释」。由于高质量的医学解释需要额外的医学知识因此我们的系统在解释生成过程中从医学教科书中提取知识以提高解释的质量。宗教领域QA问答 QASiNa 宗教领域QA问答论文名称QASiNa: Religious Domain Question Answering using Sirah Nabawiyah 论文地址https://arxiv.org/pdf/2310.08102v1.pdf 动机随着大型语言模型 (LLM)的发展。LLM可以应用于各个领域但应用于伊斯兰宗教领域时却与信息传输的原则相矛盾。在伊斯兰教中严格监管信息来源以及谁可以对该来源进行解释。LLM根据自己的解释生成答案的方法类似于tafseer的概念LLM既不是伊斯兰专家也不是伊斯兰教所不允许的人。鉴于LLM的影响力较高本文作者「对宗教领域的LLM进行评价」。论文方法论文提出了问答Sirah Nabawiyah (QASiNa)数据集这是一个根据印尼语Sirah Nabawiyah 文献编译的新颖数据集并使用 mBERT、XLM-R和IndoBERT验证该数据集并使用 SQuAD v2.0 的印尼语翻译进行微调。常识领域QA问答 QADYNAMICS 常识QA问答论文名称QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering 论文地址https://arxiv.org/pdf/2310.11303v1.pdf 论文 Github地址https://github.com/HKUST-KnowComp/QaDynamics 动机Zero-shot常识问答 (QA) 要求模型能够进行一般情况的推理。最先进的方法一般做法是根据常识知识库 (CSKB) 构建的QA对并对语言模型进行微调使其能够具备更多的常识知识。但在此过程中QA对构建过程中可能会引入来自 CSKB 的噪声从而生成不符合预期的语法问答对这会阻碍模型的泛化能力。论文方法论文提出了「QADYNAMICS一种用于QA诊断和改进的动态驱动框架」。该方法分析了QA对在问答、选项两个方面上的训练动态通过删除无信息QA对、错误标记、错误选项来简化训练检测组件。法律领域QA问答 Long-Form Legal Question Answering 法律QA问答论文名称Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models 论文地址:https://arxiv.org/pdf/2309.17050v1.pdf 论文 Github地址https://github.com/maastrichtlawtech/lleqa 会议CIKM 2023 动机许多人可能在一生中的某个时刻面临法律纠纷但他们缺乏对如何解决这些复杂问题的了解往往使他们变得脆弱。自然语言处理的进步为通过开发自动化法律援助系统来弥合法律素养差距开辟了新途径。然而现有的法律问答LQA方法往往范围狭窄要么局限于特定的法律领域要么仅限于简短、无信息的回答。论文方法论文提出了一种端到端的方法「旨在利用“先检索后阅读”的管道生成任何成文法问题的长格式答案」。为了支持这种方法引入并发布了长格式法律问答 (LLeQA) 数据集其中包含 1,868 个由专家注释的法语法律问题以及基于相关法律条款的详细答案。知识图谱领域QA问答 CHATKBQA: 知识检索QA问答知识检索效率低下检索错误影响语义解析结果先前KBQA方法的复杂性。论文名称CHATKBQA: A GENERATE-THEN-RETRIEVE FRAMEWORK FOR KNOWLEDGE BASE QUESTION ANSWERING WITH FINE-TUNED LARGE LANGUAGE MODELS 论文地址:https://arxiv.org/pdf/2310.08975v1.pdf 论文 Github地址https://github.com/LHRLAB/ChatKBQA 会议动机论文方法论文提出首先使用微调的LLM生成逻辑形式然后通过无监督检索方法检索和替换实体、关系这直接地改进了生成和检索。任务型领域QA问答 InstructTODS: 知识检索QA问答论文名称InstructTODS: Large Language Models for End-to-End Task-Oriented Dialogue Systems 论文地址https://arxiv.org/pdf/2310.08885v1.pdf 论文 Github地址https://github.com/WillyHC22/InstructTODS/ 会议动机当前大语言模型(LLM)已用于各种自然语言处理(NLP)任务但对于任务导向的对话系统TODS特别是端到端的TODS的探索仍然存在一定的局限性。论文方法论文提出了「InstructTODS该框架可用于Zero-Shot端到端任务导向的对话系统无需微调即可适应不同的领域」。通过利用LLMInstructTODS生成代理信念状态(proxy belief state)将用户意图无缝转换为动态查询以便与任何知识库进行高效交互。汽车领域QA问答 CarExpert: 汽车检索增强QA问答论文名称CarExpert: Leveraging Large Language Models for In-Car Conversational Question Answering 论文地址https://arxiv.org/pdf/2310.09536v1.pdf 论文 Github地址会议动机大型语言模型LLM通过遵循自然语言指令而无需对特定领域的任务和数据进行微调表现出了卓越的性能。然而利用LLM进行特定领域的问题回答往往会产生幻觉。此外由于缺乏对领域和预期输出的认识LLM可能会生成不适合目标领域的错误答案。论文方法论文提出了「CarExpert」车内检索增强会话问答系统利用了LLM的不同任务。具体而言CarExpert采用LLM来控制输入为提取和生成回答组件提供特定领域的文档并控制输出以确保安全和特定领域的答案。 Prompt 系列篇小样本QA问答 MINPROMPT 论文名称MINPROMPT: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering 论文地址https://arxiv.org/pdf/2310.05007v1.pdf 论文 Github地址会议动机小样本问答Few-shot QA旨在少量训练样本的情况下让模型给出令人满意的回答。最新的研究进展主要依赖大型语言模型LLM。尽管预训练阶段已经让LLM具备了强大的推理能力但LLM仍需要进行微调以适应特定领域以达到最佳结果。论文方法论文提出了「MinPrompt」一个基于近似图算法和无监督问题生成的开放域QA的最小数据增强框架。作者将原始文本转换为图形结构以在不同的事实句子之间建立联系然后应用图形算法来识别原始文本中最多信息所需的最小句子集。然后根据识别的句子子集生成问答对并在选定的句子上训练模型以获得最终模型。实证结果表明MinPrompt 能够以高效率实现与基线相当或更好的结果。 LMMs 可解释性篇大模型事实性综述(Survey on Factuality in Large Language Models) 没有外部知识的 LLMs如 ChatGPT 检索增强型 LLMs如 BingChat 事实性问题的定义及其影响评估事实性的技术及其定量评估分析 LLMs 中事实性的基本机制并确定事实错误的根本原因增强 LLMs 事实性的方法。尽管 LLMs 具有无与伦比的能力其产生非事实或误导性内容的可能也让人产生担忧对一些特定领域知识或者实时事实知识的缺乏也极大限制了大模型的使用论文名称Survey on Factuality in Large Language Models 论文地址https://arxiv.org/pdf/2310.07521.pdf 论文 Github地址会议动机四个关键维度两个主要设置 LLMs 研究 —— LLMs 自我解释性研究根据忠实度评估无论是自动生成的解释还是其他解释都没有明显的优势。然而根据一致性评估它们之间存在很大的区别。这可能表明当前解释方法可能不是最优的需要开发更好的方法来产生更好的自我解释模型预测值和单词归因值都非常全面取值如0.250.670.75等。这表明当前的评估度量可能无法充分区分好解释和坏解释对大型语言模型LLMs在自我生成特征归因解释方面的能力进行了严格评估研究使用ChatGPT和SST数据集作为测试平台构建了能可靠生成两种类型的LLM生成自我解释的提示研究比较了这些解释与传统的解释技术遮蔽显著性和LIME在忠实度和一致性指标上的表现论文名称Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations 论文地址https://arxiv.org/pdf/2310.11207.pdf 论文 Github地址会议动机LLM在自我解释方面有多擅长论文方法论文结论 LLMs4KG 篇 ChatKBQA 首先微调生成逻辑形式然后对生成的逻辑形式中的实体和关系在知识库中的实体库和关系库分别做检索避免了以前方法存在的先检索对逻辑形式生成的影响并提高检索效率在生成阶段使用指令微调技术对开源LLMs进行微调赋予它们感知和生成逻辑形式的能力论文名称ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models 论文地址https://arxiv.org/abs/2310.08975 Github 地址https://github.com/LHRLAB/ChatKBQA 会议动机利用微调开源大模型进行自然语言问题到逻辑形式的转换再利用无监督实体关系检索生成图数据库查询语言实现自然语言的知识图谱问答框架。论文方法提出了ChatKBQA这是一种基于微调开源LLMs大型语言模型如Llama-2-7BChatGLM2-6B和Baichuan2-7B等的新型生成-检索KBQA框架 LLMs Agents 篇角色扮演(Role-Play) 大语言模型的角色扮演(Role-Play with Large Language Models) 从简单的观点来看我们可以将对话agents视为扮演一个单一角色从更细微的观点来看我们可以将对话agents视为角色在多元宇宙中的模拟重叠使用我们描述人类行为的相同语言来描述对话agents是自然的如自由地使用“知道”、“理解”和“思考”等词汇。试图通过使用更科学精确的替代词来避免这样的词汇通常会导致笨拙、难以理解的文本; 如果过于在字面意义上理解这种语言会促进人格化、夸大这些AI系统与人类之间的相似之处而掩盖其内在的区别。论文名称Role-Play with Large Language Models 论文链接https://arxiv.org/pdf/2305.1636 论文动机论文思路提出了两个基本的隐喻(metaphors)来描述基于LLM的对话agents RoleLLM RoleLLM 所用两种Few-Shot方法 RoleLLM 数据合成方法 single-turn prompt在单轮对话中一次性引入examples multi-turn promptRoleLLM称之为dialogue engineering即将对话过程以user和assistant角色交替写入。 general domain。收集开源的general instructions如英文领域的Super-NaturalInstruct、中文领域的COIG等然后给到RoleGPT让其在通用问题上生成模仿某个角色的对话 role-specific即论文所谓的Context-Instruct。根据Role Profile来生成Question、Answer这样生成的dialogue数据更加与role本身相关因此有role-specific的特点 Few-Shot Prompting / In-Context Learning加入few-shot examples从该角色的历史dialogue数据中检索而来有助于LLM获取相关知识、模仿角色的风格。论文名称RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models 论文链接https://arxiv.org/abs/2310.00746 论文动机论文思路 Character-LLM 将目标role在wiki上的信息作为profile 使用LLM根据profile来生成scene 基于scene profile让LLM生成dialogue数据。其prompt示例如下用此种方法生成的数据可以是多轮的。 Fine-Tuning的迷人之处在于适当的数据开源LLM Fine-Tuning 有可能超过闭源LLM In-Context Learning。论文名称Character-LLM: A Trainable Agent for Role-Playing 论文链接https://arxiv.org/abs/2310.10158 论文动机论文思路 ChatHaruhi 将目标role发言前的内容作为question给到LLM让其继续完成这个dialogue。同时为了优化生成效果论文也采取了few-shot prompting的策略。在实验中有50%的概率会生成多轮对话。允许LLM复用few-shot examples。即允许LLM在相似场景下直接使用角色的对话内容在结尾额外加上一段人物性格描述以强化生成效果。论文名称ChatHaruhi: Reviving Anime Character in Reality via Large Language Model 论文链接https://arxiv.org/abs/2308.09597 Github 地址https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main 优化策略论文思路 Attention 篇 System 2 Attention 论文标题System 2 Attention (is something you might need too) 论文链接https://arxiv.org/abs/2311.11829 Github 地址动机大型语言模型(LLM)非常强大但它们仍容易出现简单的错误这似乎显示出弱的推理能力。例如不相关的上下文或输入提示中固有的偏好或意见都可能使它们产生错误判断在后一种情况下展现了一种称为阿谀奉承的问题即模型与输入一致同意。论文方法论文提出了一种技术方案--System 2 Attention(S2A)可以让LLM决定输入上下文的重要部分来生成好的响应。实现这点的方法是首先诱导LLM重新生成只包含相关部分的输入上下文然后关注重新生成的上下文以引出最终响应。论文在实验中证明S2A可以成功重写会降低最终答案质量的上下文因此论文的方法可以同时提高事实性并减少其响应中的阿谀奉承。未来的研究仍有许多空间。在论文的实验中采用了零样本提示来实现S2A。其他方法可以通过考虑微调、强化学习或替代提示技术(alternative prompting techniques)来进一步优化论文的方法。成功的S2A还可以压缩回标准LLM生成例如通过使用原始提示作为输入和最终改进的S2A响应作为目标进行微调。搜索篇 LSM如何用好LLMs大型搜索模型神经网络信息检索基础局限性在生成长文本时它们倾向于产生不正确或不相关的信息检索增强生成局限性RAG的最佳训练策略仍是一个未解之谜。人们也对模型利用检索信息的有效性表示担忧论文名称Large Search Model: Redefining Search Stack in the Era of LLMs 论文地址https://arxiv.org/abs/2310.14587 动机论文框架作者将大型搜索模型定义为一个定制的大型语言模型它通过自然语言提示将各种搜索任务统一起来。它重新定义了由查询理解、检索、排名、摘要和问答等许多离散组件组成的传统搜索堆栈。 SuperGen用语言模型生成训练数据迈向零样本语言理解论文名称SuperGenGenerating Training Data with Language Models: Towards Zero-Shot Language Understanding 论文地址https://arxiv.org/abs/2202.04538 方法利用NLG模型生成数据质量高的优势结合NLU模型理解能力强的优势在多个GLUE任务上起到了不错的效果。 DARE: 基于GPT-2的数据增强关系提取论文名称: DARE: Data Augmented Relation Extraction with GPT-2 论文地址https://arxiv.org/abs/2310.14587 方法用gpt2先在领域内数据上微调然后用生成的训练数据来提升BERT类模型在关系抽取任务上的效果。这一思路其实是和SuperGen思路是相同的只是gpt2的模型体量更小在相关领域上微调后生成的数据质量可能反而更好。如何通过大模型构建 “query-doc” 解释对搜索数据进行数据增强就是获取更多的“query-doc”对。一种方法是根据query生成假doc而另一种是根据doc生成假query。 InPars: 基于大型语言模型的信息检索数据扩充论文名称: InPars: Data Augmentation for Information Retrieval using Large Language Models 论文地址https://arxiv.org/abs/2202.05144 方法InPairs利用LLM的上下文学习能力结合给出的示例给doc生成了大量的假query然后通过微调后的语言模型进行结果“过滤”。 InPars-v2: 大型语言模型作为信息检索的有效数据集生成器论文名称: InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval 论文地址https://arxiv.org/abs/2301.01820 方法在inPairs-V2版本中一个较大的变化是其利用在检索数据集上微调的T5-3B模型来过滤生成的查询而不是简单的通过概率进行过滤以此来提升生成数据的可靠性。 InPairs-Light高效排名者的成本效益无监督培训论文名称: InPairs-LightCost-Effective Unsupervised Training of Efficient Rankers 论文地址https://arxiv.org/abs/2301.02998 方法后续的inPairs-Light版本也对“过滤器”进行了瘦身参数从30亿降至2亿。 InPairs-Light从8个例子看 Few-shot Dense Retrieval 论文名称: PromptagatorFew-shot Dense Retrieval From 8 Examples 论文地址https://arxiv.org/abs/2301.02998 方法PROMPTAGATOR 利用inPairs中“生成-过滤”这一过程在生成的样本上微调检索器然后使用该检索器过滤生成的样本。重复这两个步骤直到收敛以产生高质量的训练集。 UDAPDR基于LLM提示和重排序的无监督域自适应论文名称: UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers 论文地址https://arxiv.org/abs/2303.00807 动机在inPairs-V2版本中研究者意识到请求LLM如chatgpt、gpt4的API进行数据增强会带来高额的成本开始采用开源的LLM替换API请求方式但可能会导致增强数据的质量下降。方法UDAPDR 针对这一问题先用高质量LLM根据doc生成高质量query然后用高质量doc-query送入低成本LLM扩充数量兼顾了成本和效果问题其过程如图所示。如何通过大模型标注 “query-doc” 正负样例通过上述方法虽然能够构建 “query-doc”但是如何辨别真假呢这个时候可以利用LLM获取query与doc的假label即让模型帮我判断这条数据是不是正样本是正样本的概率是多少 ART训练 Dense Passage Retriever 所需的全部问题论文名称: ARTQuestions Are All You Need to Train a Dense Passage Retriever 论文地址https://arxiv.org/abs/2206.10658 方法先将query经过向量编码然后通过向量检索器选出相关文档再让模型给每个文档与query的相关性进行打分。这一打分被作为soft label反馈给之前的passage encoder和question encoder进行更新训练。 ExaRankerExplanation-Augmented Neural Ranker 论文名称: ExaRankerExplanation-Augmented Neural Ranker 论文地址https://arxiv.org/abs/2206.10658 方法ExaRanker 使用 GPT-3.5 为检索数据集生成解释随后训练一个 seq2seq 排名模型来生成相关标签以及给定查询-文档对的相应解释。 ChatGPT-RetrievalQA为交叉编码器重排器生成合成文档 ChatGPT 与人类专家的比较研究论文名称: ChatGPT-RetrievalQAGenerating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts 论文地址https://arxiv.org/abs/2305.02320 方法我们研究了生成式大型语言模型(llm)在为交叉编码器重新排序器生成训练数据方面的有用性该方向是:生成合成文档而不是合成查询。我们引入了一个新的数据集ChatGPT-RetrievalQA并比较了在llm生成和人工生成数据上微调的模型的有效性。生成式llm生成的数据可用于增强训练数据特别是在标记数据数量较少的领域。我们基于一个现有的数据集人类ChatGPT比较语料库(HC3)构建ChatGPT- retrievalqa该数据集由公共问题集合组成其中包含来自ChatGPT的人类响应和答案。实验结果我们在人工生成或chatgpt生成的数据上微调一系列交叉编码器重新排名。我们对MS MARCO DEV、TREC DL19和TREC DL20的评估表明在ChatGPT响应上训练的交叉编码器重新排序模型比在人类响应上训练的模型更有效。在有监督的环境中人工训练的重新排名者的表现优于法学硕士训练的重新排名者。我们的新发现表明生成式llm在为神经检索模型生成训练数据方面具有很高的潜力。需要进一步的工作来确定在生成的响应中事实错误信息的影响并测试我们的发现在开源法学硕士中的普遍性。我们为将来的工作发布数据、代码和交叉编码器检查点。如何通过大模型改写 “query-doc” 让LLM作为生成模型根据用户的query写一段文本将其作为改写结果送入后续的检索模块以提高最终的检索质量。面向信息检索查询扩展的神经文本生成论文名称: Neural text generation for query expansion in information retrieval 论文地址https://dl.acm.org/doi/10.1145/3486622.3493957 动机在LLM时代到来之前就有不少研究利用各种生成式模型来对query进行改写。方法利用gpt-2根据query生成文本作为改写结果。文章整体思路非常简单但是可以应用在各式各样的搜索系统上效果也不错。另外gpt-2模型体量不大再加上cache等手段的运用对于搜索系统整体没有什么额外负担。 Query2doc:使用大语言模型进行查询扩展论文名称: Query2docQuery Expansion with Large Language Models 论文地址https://arxiv.org/abs/2303.07678 动机方法通过预定的prompt根据用户的query生成一段文本用于辅助后续的检索。相比之下谷歌的研究有两点不同一是没有利用上下文学习ICL二是要求LLM给出其答案的思维链。通过提示大语言模型进行查询扩展论文名称: Query Expansion by Prompting Large Language Models 论文地址https://arxiv.org/abs/2305.03653 动机查询扩展是一种广泛用于提高搜索系统查全率的技术。方法在本文中我们提出了一种利用大型语言模型(llm)的生成能力进行查询扩展的方法。与传统的查询扩展方法(如伪相关反馈(PRF))依赖于检索一组良好的伪相关文档来扩展查询不同我们依赖于LLM的生成和创造能力并利用模型中固有的知识。我们研究了各种不同的提示包括零弹、少弹和思维链(CoT)。我们发现CoT提示对于查询扩展特别有用因为这些提示指示模型逐步分解查询并且可以提供与原始查询相关的大量术语。实验结果在MS-MARCO和BEIR上的实验结果表明llm生成的查询扩展比传统的查询扩展方法更强大。 LLMCS大语言模型了解上下文搜索意图:会话搜索的提示框架论文名称: LLMCSLarge Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search 论文地址https://arxiv.org/abs/2303.06573 动机上述两个方法可以应用于即席搜索ad-hoc search场景而现代的搜索系统很多支持会话搜索session search类似于多轮对话搜索结果会考虑一个会话中的前几次搜索信息。方法LLMCS是一个支持会话搜索的框架且针对于会话搜索场景下LLM输入长度增加的问题使用了滑窗方法进行优化。 GRM: 基于相关性感知样本估计的文档检索生成关联建模论文名称: GRMGenerative Relevance Modeling Using Relevance-Aware Sample Estimation for Document Retrieval 论文地址https://arxiv.org/abs/2306.09938 动机尽管LLM拥有出色的文本理解和生成能力不可否认其还是会存在幻觉问题导致其输出结果背离事实引入无关噪声影响最终检索结果。方法GRM训练了一个神经网络模型对LLM生成的结果进行相关性打分最后将得分作为每个生成结果的权重以减轻无关信息对最终检索结果的影响。如何通过大模型综合利用PRF伪相关反馈GRF生成相关反馈以上研究都是利用LLM的生成结果作为改写结果的主要内容我们可以将其看作是一种生成相关反馈GRF而不少研究也同时在模型生成或结果后处理阶段加入伪相关反馈PRF的方法来改进改写结果的质量。 HyDE:无关联标签的精确 Zero-Shot Dense Retrieval 相比传统的PRF方法保证了第一次检索的伪文档的相关性相比Query2doc等方法又通过结合PRF避免了LLM可能产生幻觉的问题保证了结果的高度真实性。类似地LameR则是将PRF这一过程放到了LLM输入之前。论文名称: HyDEPrecise Zero-Shot Dense Retrieval without Relevance Labels 论文地址https://arxiv.org/abs/2212.10496 动机LLM幻觉问题方法HyDE将LLM生成的结果进行编码利用向量检索器与真实的文档库中的候选文档进行相关性匹配然后利用真实的文档作为改写的结果辅助查询。可以看出该方法实质上就是利用LLM的输出结果而不是query去召回伪文档。优点 LameR:大型语言模型是强大的零样本检索器论文名称: LameRLarge Language Models are Strong Zero-Shot Retriever 论文地址https://arxiv.org/abs/2304.14233 动机LLM幻觉问题方法优点 Rewrite-Retrieve-Read针对检索增强的大型语言模型的查询重写论文名称: Rewrite-Retrieve-ReadQuery Rewriting for Retrieval-Augmented Large Language Models 论文地址https://arxiv.org/abs/2305.14283 动机LLM幻觉问题方法Rewrite-Retrieve-Read这一研究则是利用改写去加强检索增强LLM的效果。Rewrite-Retrieve-Read图中从左到右分别是检索增强LLM、带有改写器的检索增强LLM、带有强化学习改写器的检索增强LLM。其中Rewrite-Retrieve-Read指的是第三个。可以看出Rewrite-Retrieve-Read方法不仅利用LLM作为改写器增加了其检索增强的效果还引入了强化学习通过最终答案的反馈来训练高质量LLM改写器。优点 PRFGRF:稀疏、稠密和学习稀疏检索的生成和伪相关反馈论文名称: PRFGRFGenerative and Pseudo-Relevant Feedback for Sparse, Dense and Learned Sparse Retrieval 论文地址https://arxiv.org/abs/2305.07477 动机LLM幻觉问题方法PRFGRF直接结合PRF和LLM输出的结果然后综合加权考虑两者的结果作为改写结果。优点 InteR:通过搜索引擎和大型语言模型之间的交互进行知识提炼论文名称: InteRKnowledge Refinement via Interaction Between Search Engines and Large Language Models 论文地址https://www.researchgate.net/publication/370763983_Knowledge_Refinement_via_Interaction_Between_Search_Engines_and_Large_Language_Models 动机LLM幻觉问题方法InteR则是一种搜索系统和LLM多轮交互框架通过多次PRF、LLM输出达到增强两过程效果的目的。优点如何通过大模型进行召排何为召回召回retrive是搜索系统中的核心模块可分为基于统计算法的稀疏检索Sparse Retriever和基于神经网络的密集检索Dense Retriever。召回存在哪些问题 query短且模糊 doc长且噪声多监督数据标注成本高 PLM模型仍存在改进空间如何基于encoder的LLM检索器基于encoder的检索器指的是在密集检索中使用LLM出色的语义能力获取query或doc的向量表示用向量检索器进行检索召回。 cpt-text:通过 Contrastive Pre-Training 嵌入文本和代码论文名称: cpt-textText and Code Embeddings by Contrastive Pre-Training 论文地址https://arxiv.org/abs/2201.10005 动机方法cpt-text 在未标记的数据上使用带负采样的对比学习将相邻的文本视为正样本从头训练了四种参数级别的嵌入模型用以产生文本的高质量向量表示。这种结合预训练模型初始化、大批量对比学习和大规模训练的简单配方可以产生具有广泛能力的高质量文本向量甚至会超越在领域内数据上微调后的语言模型。优点 GTR大型双编码器是可推广的检索器论文名称: GTRLarge Dual Encoders Are Generalizable Retrievers 论文地址https://arxiv.org/abs/2112.07899 点击【查看原文】查看原文 TART带指令的任务感知检索论文名称: TARTTask-aware Retrieval with Instructions 论文地址https://arxiv.org/abs/2211.09260 点击【查看原文】查看原文如何基于生成式的LLM检索器上面的研究都旨在利用LLM的强大语义编码能力对query、doc等内容进行编码。但在LLM崭露头角之前就有不少研究致力于构建end2end式的检索模型成为生成式检索器Generative Retriever。相比先编码再检索生成式方法通过联合编码器和解码器直接获取要检索的文档标识符 DSI:Transformer内存作为可微分搜索索引论文名称: DSITransformer Memory as a Differentiable Search Index 论文地址https://arxiv.org/abs/2202.06991 动机方法DSI就是一种典型的生成式检索模型在检索数据集上微调T5模型直接对query、doc进行编码然后直接解码输出相关文档的id作为检索结果。优点 LLM-URL:大型语言模型内置于自回归搜索引擎中论文名称: LLM-URLLarge Language Models are Built-in Autoregressive Search Engines 论文地址https://arxiv.org/abs/2305.09612 动机方法LLM-URL研究中发现LLM生产的URL中包含90%以上的query的相关答案他们利用这一点设计合适的prompt获取LLM输出的URL并将其作为生成式检索器的额外输入直接获取文档相关id。这种方式相当于进行“改写”只不过是基于生成式检索器之上的。优点如何通过大模型进行排序微调LLM进行相似度计算在gpt3等超大型参数模型出现之前不少研究都利用PLM将排序任务看作相似度计算任务来获得每个query和doc的相似度得分。RankT5就是这样一种模型他基于T5直接计算查询-文档对的相关分数并使用pairwise或listwise计算排名损失进行微调。 RankT5: 用于具有排名损失的文本排名的微调T5 论文名称: RankT5Fine-Tuning T5 for Text Ranking with Ranking Losses 论文地址https://arxiv.org/abs/2202.06991 动机方法RankT5有两种得分计算方法一种是encoder-decoder结构另一种则是不需要解码直接根据encoder编码得到排序分数。作者实验证明两种结构效果上各有胜负这也侧面表明decoder作用其实不大蒸馏等操作可以直接对encoder下手。类似的研究还有很多只是把backbone换为BERT、BART、GPT等即可。提示LLM 对超大规模LLM进行微调存在成本昂贵的明显问题不少研究选择利用LLM的提示能力得到query与doc是否相似的答案。 UPR利用零样本问题生成改进文章检索论文名称: UPRImproving Passage Retrieval with Zero-Shot Question Generation 论文地址https://aclanthology.org/2022.emnlp-main.249/ 会议ACL2022 动机排序的实质是进行query和doc间的相似度计算这一分数也可以看作是根据query获得doc的概率。方法UPR利用这一过程的逆向思路利用prompt提示LLM针对每一个doc逐一计算query中各个token的生成概率并将这一概率作为query和doc的相似度分数。简单理解就是用LLM根据prompt对每个doc生成对应的query称为假query。然后将生成后的假query和原query送入语言模型进行打分计算两者的一个“相似度”。这里的相似度并不是我们熟知的向量相似度而是“假query复原原query”的概率其过程如上面公式所示。最后对这个得分进行排序以获取最终的排序结果。 RankGTPChatGPT擅长搜索吗作为重新排序代理的大型语言模型研究论文名称: RankGTPIs ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent 论文地址https://aclanthology.org/2023.emnlp-main.923/ LLR:基于大型语言模型的零射击列表式文档重排序论文名称: LLRZero-Shot Listwise Document Reranking with a Large Language Model 论文地址https://aclanthology.org/2023.emnlp-main.923/ PRP大型语言模型是具有成对排序提示的有效文本排序器论文名称: PRPLarge Language Models are Effective Text Rankers with Pairwise Ranking Prompting 论文地址https://arxiv.org/pdf/2306.17563.pdf Co-Prompt通过约束生成的离散提示优化零样本重随机论文名称: Co-PromptDiscrete Prompt Optimization via Constrained Generation for Zero-shot Re-ranker 论文地址https://aclanthology.org/2023.findings-acl.61.pdf CoT 篇如何提升LLMsSelf-Prompted CoT 自动化流水线生成带有多跳问题和推理链的ODMR数据集自适应采样选择多样化的高质量CoTs作为示范通过上下文学习从生成的CoTs中学习自我引导的推理开放域多跳推理ODMR 局限性ODMR需要通过明确的推理步骤回答多跳问题而不依赖于任何提供的上下文。这比有上下文的多跳问答要困难得多因为模型不能依赖于检索相关段落链式思考CoT 局限性在质量或多样性上有局限性论文名称Self-prompted Chain-of-Thought on Large Language Models for Open-domain Multi-hop Reasoning 论文地址https://arxiv.org/pdf/2310.13552.pdf 动机论文框架提出了一种自我提示的思维链SP-CoT自动化框架通过大型语言模型LLMs自身生成高质量多样化的思维链用于开放域多轮推理ODMR。关键思想是微调数据工程篇用语言模型自我完善一种无需额外标注数据的训练方法标题Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability 机构Boston University 关键词训练数据构建、LLMs 作者Afra Feyza Akyürek (a) 为了提高语言模型预测的连贯性研究者从一组种子文档开始然后使用语言模型生成一组由这些文档蕴含或与其矛盾的文档。 (b) 接下来我们通过找到最可能且在逻辑上一致的子集来确定生成的文档中最有可能是正确的在本例中排除“天空是蓝的”因为它与种子陈述相矛盾。 (c) 最后对所选的文档子集进行微调。尽管此示例展示了DCT应用于监督模型更新应用其中种子陈述是用户提供的新事实但DCT也可用于无监督模型改进通过从语言模型本身中采样种子陈述。 EMNLP23大模型时代的数据标注——FreeAL 论文名称FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models[J]. 论文地址 https://arxiv.org/pdf/2311.15614 From Quantity to Quality如何挑选具有增强LLM指令调优潜力的数据样例论文名称From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning 论文地址https://arxiv.org/pdf/2308.12032.pdf GitHub 地址https://github.com/MingLiiii/Cherry_LLM Active Instruction Tuning怎么更好的选择一个新任务来提高模型泛化性论文名称Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks 论文地址https://arxiv.org/pdf/2311.00288.pdf MoDS: 如何自动筛选高质量数据 Quality Evaluation基于模型打分筛选出高质量的SFT数据 Diverse Data Selection for Seed Instrucitons在这份高质量SFT数据集中继续过滤出一个子集该子集的多样性要足够好能表征整个数据集 Augmented Data Selection 质量: 高质量的prompt以及对应的高质量response可以很好的让模型学会遵循指令覆盖率: prompt的多样性越多样性越好必要性: 同一条prompt对不同基座模型的重要度和必要性是不一样的如果一条prompt对于基座来说已经很好的输出response了也就是说模型已经很好的遵循prompt了不需要再训练了相反则是模型需要的。论文名称MoDS: Model-oriented Data Selection for Instruction Tuning 论文地址https://arxiv.org/pdf/2311.15653.pdf GitHub 地址https://github.com/CASIA-LM/MoDS 动机如何筛选出适合当前给定这个LLM的高质量数据也就是说高质量是和模型深度绑定的。 “高质量”数据的标准是什么 “高质量”数据的如何筛选符尧别卷大模型训练了来卷数据吧论文名称An Initial Exploration of Theoretical Support for Language Model Data Engineering 大模型对代码的记忆痕迹论文名称Traces of Memorisation in Large Language Models for Code 论文地址https://arxiv.org/pdf/2312.11658 避免语言模型评估中的数据污染动态测试构建与最新材料论文名称Avoiding Data Contamination in Language Model Evaluation: Dynamic Test Construction with Latest Materials 论文地址https://arxiv.org/pdf/2312.12343 GeomVerse: 对几何推理的大型模型的系统评估论文名称GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning 机构谷歌研究院、Google DeepMind 论文地址https://arxiv.org/pdf/2312.12241 仅用1%的数据完胜全量数据微调模型! 论文名称One Shot Learning as Instruction Data Prospector for Large Language Models 高效大模型推理篇有限内存下的高效大模型推理论文名称LLM in a flash: Efficient Large Language Model Inference with Limited Memory 论文地址https://arxiv.org/pdf/2312.11514 点击【查看原文】查看原文 ComplexityNet: 通过学习任务复杂度来提高LLM推理效率论文名称ComplexityNet: Increasing LLM Inference Efficiency by Learning Task Complexity 论文地址https://arxiv.org/pdf/2312.11511 超越Chinchilla-Optimal: 在语言模型缩放定律中考虑推理论文名称Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws 论文地址https://arxiv.org/pdf/2401.00448 Understanding LLMs从训练到推理的全面概述论文名称Understanding LLMs: A Comprehensive Overview from Training to Inference 论文地址https://arxiv.org/pdf/2401.02038 大模型评估篇 Catwalk: 多数据集的统一语言模型评估框架论文名称Catwalk: A Unified Language Model Evaluation Framework for Many Datasets 论文地址https://arxiv.org/pdf/2312.10253 Github 地址https://github.com/allenai/catwalk 会议论文方法这篇论文介绍了Catwalk一个为了解决大规模比较NLP模型在多个任务、领域和数据集上的工程挑战而设计的统一界面。它使得在大规模实验中进行公平和可控的比较更加容易。通过一个命令Catwalk可以在86个数据集上对64个模型进行微调和评估而无需编写任何代码。 KGLens: 一种参数化的知识图谱解决方案用于评估LLM所知和不知道的内容论文名称KGLens: A Parameterized Knowledge Graph Solution to Assess What an LLM Does and Doesnt Know 论文地址https://arxiv.org/pdf/2312.11539 人工智能是否能像人类一样具备创造力 Can AI Be as Creative as Humans? 论文地址https://arxiv.org/pdf/2401.01623 大模型预训练篇 TeleChat一个包含30亿、70亿和120亿参数的大型语言模型集合论文名称TeleChat Technical Report 作者Zihan Wang, Xinzhang Liu, Shixuan Liu 论文地址arxiv.org/pdf/2401.03804 相关领域模型结构改进、预训练、指令微调、模型评估会议论文方法TeleChat是一个包含30亿、70亿和120亿参数的大型语言模型集合。它包括预训练的语言模型和与人类偏好一致的fine-tuned聊天模型。TeleChat首先在包含英文和中文的各种文本的广泛语料库上进行预训练包括数万亿个标记。随后模型通过细调以与人类偏好一致遵循该论文描述的详细方法。该论文对TeleChat在语言理解、数学、推理、代码生成和基于知识的问答等各种任务中的性能进行评估。实验结果TeleChat在广泛的公共基准测试中达到了与其他相似规模的开源模型相当的性能。为了支持未来利用LLMs的研究和应用该论文向公众社区发布了TeleChat 7B和12B变种的fine-tuned模型检查点以及代码和部分预训练数据。大模型并不是你所需要的全部论文名称Large Language Models arent all that you need TinyLlama: 一个开源的小型语言模型论文名称TinyLlama: An Open-Source Small Language Model LLM增强LLM通过组合扩展能力论文名称LLM Augmented LLMs: Expanding Capabilities through Composition LLaMA Pro: 带有块扩展的渐进式 LLaMA 论文名称LLaMA Pro: Progressive LLaMA with Block Expansion 机构香港大学、上海交通大学、Tencent PCG实验室作者Chengyue Wu, Yukang Gan, Yixiao Ge 论文地址arxiv.org/pdf/2401.02415 点击【查看原文】查看原文无需注释的病理定位的通用视觉语言预训练论文名称Generalizable vision-language pre-training for annotation-free pathology localization ChartAssistant: 通过图表到表格预训练和多任务指令微调的通用图表多模态语言模型论文名称ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning DIALIGHT: 利用大模型轻量级开发和评估任务导向对话系统论文名称DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models 机器人篇 Mobile ALOHA低成本全身远程操作学习双手机器人移动操作论文名称Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation 强化学习篇基于表征工程的生成式语言大模型人类偏好对齐构建类似ChatGPT生成式语言大模型一般要经过语言模型、提令精调和强化学习三个主要训练步骤其中第三步使用强化学习来实现人类期望对齐既有一定的技术难度又需要多次人工标注反馈因而实现上有一定挑战; 经过前两步语言模型和提令精调之后语言大模型仍然会生成带有偏见、歧视或者令人不适的回答; 为了提升大模型的安全性、可用性和可信性与人类期望对齐是必不可少的步骤; 然而目前研究表明利用人类反馈的强化学习算法[1]RLHF存在训练不稳定、对超参数敏感和训练代价较高等问题。论文名称Aligning Large Language Models with Human Preferences through Representation Engineering 论文链接https://arxiv.org/abs/2312.15997 论文方法使用带偏好注释的数据集来让大型语言模型“感知”人类的偏好收集模型在不同偏好“刺激”情况下的隐层激活模式利用收集到的激活模式及差异来调整模型使其与与人类偏好对齐。 ICE-GRT: 基于生成强化学习的指令上下文增强模型论文名称ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers 机构字节跳动作者Chen Zheng, Ke Sun, Da Tang 论文地址arxiv.org/pdf/2401.02072 相关领域指令微调、奖励模型、RLHF 会议论文方法这篇论文介绍了ICE-GRT模型利用基于邻近策略优化PPO的人类反馈强化学习RLHF来增强大语言模型在领域特定任务中的能力。ICE-GRT在领域内场景中展示了出色的理解和推理能力不仅能够生成强健的答案还可以提供答案背后的详细分析。该模型在领域特定任务和12个通用语言任务中表现优秀相比于同等规模甚至更大规模的大语言模型取得了最先进的性能。作者对ICE-GRT进行了综合分析突出了其对大语言模型领域的显著进展。数字人从音频到逼真的人体化合成对话中的人类论文名称From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations 论文地址https://arxiv.org/pdf/2401.01885 论文方法该论文提出了一个生成全身逼真的头像的框架根据双方互动的对话动态进行手势生成。通过语音音频输入该论文可以输出个体的多种手势动作包括面部、身体和手部的动作。该论文的方法将向量量化的样本多样性与扩散获得的高频细节相结合生成更具动态和表现力的动作。该论文使用高度逼真的人体化头像可视化生成的动作可以表达手势中的重要细微之处例如冷笑和嘲笑。为了促进这一研究领域的发展该论文推出了一种首个多视角对话数据集可用于逼真重构。实验结果显示该论文的模型生成适当且多样的手势优于扩散和向量量化单独的方法。此外该论文的感知评估凸显了光真度与网格相比在准确评估对话手势中细微动作细节方面的重要性。代码和数据集可在网上获得。 Long LLM 篇从4K到400K的飞跃用激活信标扩展LLM的上下文论文名称Soaring from 4K to 400K: Extending LLMs Context with Activation Beacon 机构中国人民大学、北京AI研究院论文地址https://arxiv.org/pdf/2401.03462 相关领域模型结构论文介绍这篇论文主要介绍了一种名为激活信标Activation Beacon的插件模块用于扩展大语言模型LLM的上下文窗口长度。通过将LLM的原始激活信息压缩为更紧凑的形式激活信标可以在有限的上下文窗口中感知更长的上下文。它完全保留了LLM在短上下文上的原始能力同时拥有处理长上下文的新能力。该方法使用短滑动窗口处理长上下文在训练和推理中达到了竞争性的内存和时间效率。实验结果激活信标可以将Llama-2-7B的上下文长度增加100倍从4K到400K同时在长上下文生成和理解任务上取得了优秀的结果。 LRA 论文名称Long range arena : A benchmark for efficient transformers SCROLLS 论文名称SCROLLS: Standardized CompaRison Over Long Language Sequences MoE 篇 Mixtral 8x7B: 稀疏专家混合语言模型标题Mixtral of Experts 相关领域模型结构改进、指令微调作者Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux 发表时间2023.09.23 论文地址arxiv.org/pdf/2401.04088 相关领域Transformers 会议论文方法这篇论文介绍了Mixtral 8x7B一种稀疏专家混合语言模型SMoE。Mixtral具有与Mistral 7B相同的架构不同之处在于每个层由8个前馈块即专家组成。对于每个令牌在每个层中路由网络选择两个专家来处理当前状态并将其输出进行组合。尽管每个令牌只能看到两个专家但所选择的专家在每个时间步骤可以不同。结果是每个令牌可以访问470亿个参数但在推理过程中只使用130亿个活跃参数。Mixtral使用32k令牌的上下文尺寸进行训练并且在所有评估基准中胜过或与Llama 2 70B和GPT-3.5相匹配。特别是在数学、代码生成和多语言基准测试中Mixtral远远优于Llama 2 70B。该论文还提供了一个fine-tuned的模型Mixtral 8x7B - Instruct在人类基准测试中超过了GPT-3.5 Turbo、Claude-2.1、Gemini Pro和Llama 2 70B - chat模型。基础模型和指令模型都是在Apache 2.0许可下发布的。 mini LLMs 篇项目名称ChatLM-mini-Chinese 项目介绍中文对话0.2B小模型ChatLM-Chinese-0.2B开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。项目地址https://github.com/charent/ChatLM-mini-Chinese Longbench GPT-3.5-Turbo-16k Llama2-7B-chat-4k LongChat-v1.5-7B32k XGen-7B-8k InternLM-7B-8k ChatGLM26B ChatGLM2-6B-32k Vicuna-v1.5-7B-16k 论文名称Longbench: A bilingual, multitask benchmark for long context understanding BAMBOO 论文名称BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models 发表时间2023.09.23 论文地址https://arxiv.org/pdf/2309.13345v1.pdf L-Eval 论文名称L-eval: Instituting standardized evaluation for long context language models

查看全文

http://www.zqtcl.cn/news/250156/