旅游网站 功能,成都网站品牌设计策划,wordpress菜单显示用户信息,视频网站怎么赚钱计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28目录前言1. Cognitive phantoms in LLMs through the lens of latent variables摘要研究背景问题与挑战创新点算法模型实验效果…计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28目录前言1. Cognitive phantoms in LLMs through the lens of latent variables摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数 2. Steward: Natural Language Web Automation摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数 3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数 4. SEAL: Suite for Evaluating API-use of LLMs摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数 5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数 6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning摘要创新点算法模型实验效果推荐阅读指数★★★★☆ 7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数★★★★☆ 8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses文章分析总结文章标题翻译摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数 9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数★★★★☆ 10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations摘要研究背景问题与挑战创新点算法模型实验效果推荐阅读指数★★★★☆ 后记 前言
这期内容中我们对近期大模型多模态大模型 教育大模型医疗几个方向的研究工作做简要介绍。
1. Cognitive phantoms in LLMs through the lens of latent variables
Authors: Sanne Peereboom, Inga Schwabe, Bennett Kleinberg https://arxiv.org/abs/2409.15324 从潜在变量视角看大型语言模型中的认知幻影
摘要
本研究探讨了大型语言模型LLMs的行为特别是它们在心理测量问卷中表现出的人类特质。研究者通过比较人类与三种LLMs的潜在人格结构发现为人类设计的问卷可能无法有效测量LLMs中的相似结构甚至这些结构可能根本不存在于LLMs中。研究结果强调了避免在LLMs中追逐认知幻影的必要性。
研究背景
随着LLMs在现实世界中应用的增加理解其行为变得尤为重要。它们的规模和复杂性使得传统评估方法变得复杂因此需要采用心理学领域的新方法。近期的研究表明LLMs在心理测试中表现出类似人类的特质但这种方法的有效性存在问题。
问题与挑战
问题: 如何有效评估LLMs的心理特质挑战: 现有的心理测量工具是否适用于LLMs以及这些工具测量的潜在特质是否真实存在于LLMs中。
创新点
使用两种经过验证的性格问卷对比人类与LLMs的潜在人格结构。探讨了问卷设计对于人类是否也适用于LLMs并评估了这些构建在LLMs中的存在性。
算法模型
模型: 使用了三种GPT模型GPT-3.5-turbo-0125, GPT-4-0612, GPT-4-0125-preview。方法: 通过比较人类样本和LLMs样本的潜在结构来进行验证性因子分析CFA和探索性因子分析EFA。
实验效果
数据: 人类样本n365GPT-3.5-T样本n399GPT-4样本n387。结论: LLMs的问卷响应显示出随意性与人类样本的潜在结构大不相同。这表明我们不能有效地使用现有的问卷测量LLMs中的人格特质或者这些特质根本不存在于LLMs中。
推荐阅读指数
★★★☆☆
推荐理由: 这篇文章为理解LLMs的行为提供了新的视角并对现有的心理测量方法在LLMs中的应用提出了质疑。
2. Steward: Natural Language Web Automation
Authors: Brian Tang, Kang G. Shin https://arxiv.org/abs/2409.15441 Steward: 自然语言网页自动化
摘要
本文介绍了Steward这是一款新型的大型语言模型LLM驱动的网络自动化工具旨在为网站交互提供一种经济、可扩展的端到端解决方案。Steward通过接收自然语言指令反应性地规划和执行一系列网站操作直到任务完成使其成为开发人员和研究人员实用的工具。Steward在执行动作时表现出高效率并且通过缓存机制进一步提高了性能。
研究背景
大型语言模型LLMs在AI助手领域展现出了卓越的能力但它们在不同网站和网页环境中的交互能力尚未充分探索。现有的浏览器自动化框架如Selenium、Puppeteer和Playwright在执行大规模或动态网站交互任务时存在局限性。
问题与挑战
问题: 如何让LLMs有效地与各种网站和网页元素进行交互挑战: 如何设计一个能够理解自然语言指令并自动执行网页任务的系统。
创新点
提出了一种结合LLMs和浏览器自动化的工具允许自然语言驱动的网站交互。设计了一种高效的缓存机制显著提高了任务执行的速度和成本效率。实现了一个端到端的系统可以自动检测任务完成状态并终止操作。
算法模型
模型: 使用了OpenAI的GPT-3.5 Turbo、GPT-4 Turbo和GPT-4 Vision模型。方法: Steward通过接收自然语言指令利用LLMs生成网页的高级描述然后通过筛选和清理HTML元素选择与用户指令最匹配的UI元素进行交互。
实验效果
数据: 使用Mind2Web数据集进行评估包含2,350个自然语言任务和超过10,000个记录的动作。结论: Steward在执行任务时表现出了40%的成功率平均完成56%的步骤在检测到任务完成状态时正确终止的比率为71%。在成本方面Steward平均每次任务的成本为0.18美元中位数为8.52秒/动作。
推荐阅读指数
★★★★☆
推荐理由: Steward的研究为LLMs在网页自动化领域的应用提供了新的思路和方法。它不仅展示了LLMs在理解自然语言指令和执行网页任务方面的潜力还通过缓存机制提高了性能。
3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration
Authors: Haoyu Huang, Tong Niu, Rui Yang, Luping Shi https://arxiv.org/abs/2409.15461 RAM2C一种基于检索增强的多角色多专家协作的文科教育聊天机器人
摘要
本研究聚焦于如何利用大型语言模型LLMs改进文科教育对话尤其是在中文阅读教学中。研究者们提出了一个名为RAM2CRetrieval-augmented Multi-role Multi-expert Collaboration的框架以自动生成符合人文教育要求Humanized communication, Teaching expertise, Safety-ethics简称HTS的对话数据集。该框架通过多角色多专家协作使用改进的检索增强生成技术显著提升了LLMs在教育对话中的表现。
研究背景
在文科教育对话中除了专业知识人性化沟通、教学技巧和安全伦理同样重要。然而收集符合HTS标准的教学对话数据成本高昂现有的LLMs在教学对话中的表现还未达到人类标准。
问题与挑战
如何生成符合HTS要求的高质量教育对话数据。如何提升LLMs在文科教育对话中的个性化、教学专长和伦理安全表现。
创新点
提出RAM2C框架通过多角色多专家协作自动生成高质量教育对话数据。设计了基于多源知识库的检索增强专家系统通过群体反思实现多维度参考价值检索增强。在文科教育对话中通过人偏好对齐实现LLMs的HTS偏好对齐。
算法模型
模型: RAM2C框架整合了多个LLMs包括教师、教育心理学家和伦理安全专家。方法: 使用检索增强技术通过不同知识库增强LLMs形成多专家组生成符合HTS标准的教育对话数据集并对LLMs进行微调。
实验效果
数据: 使用RAM2C生成的3,500个对话样本进行微调。结论: 微调后的模型在HTS三个维度上的表现均优于原始模型尤其是在人性化沟通和教学专长方面。与主流中文商业模型GLM-4相比RAM2C赋能的GLM-4展现了最高水平的表现。
推荐阅读指数
★★★★☆
推荐理由: 通过创新的多角色多专家协作和检索增强技术显著提升了LLMs在教育对话中的个性化和教学质量对于教育领域的研究者和实践者来说这篇文章值得一读。
4. SEAL: Suite for Evaluating API-use of LLMs
Authors: Woojeong Kim, Ashish Jagmohan, Aditya Vempaty https://arxiv.org/abs/2409.15523 SEAL用于评估大型语言模型API使用的工具套件
摘要
大型语言模型LLMs在处理需要实时访问外部APIs的任务时存在局限性。虽然已有一些基准测试如ToolBench和APIGen用于评估LLMs的API使用能力但它们通常存在缺乏泛化能力、有限的多步推理覆盖以及由于实时API波动导致的不稳定等问题。本文介绍了SEAL这是一个端到端的测试平台用于评估LLMs在现实世界API使用中的表现。SEAL标准化现有基准集成了用于测试API检索和规划的代理系统并通过引入GPT-4驱动的API模拟器和缓存来解决实时API的不稳定性问题。
研究背景
LLMs在许多语言任务中表现出色但在需要实时访问特定信息如当前事件、计算或网络搜索的任务中面临限制。工具如计算器、代码执行和浏览扩展了LLMs的能力使它们能够执行专业任务并获取最新知识动态适应用户需求。
问题与挑战
现有的API使用基准测试存在一些关键问题包括泛化能力不足、多步推理查询覆盖不足以及由于实时API服务的变动性导致的基准质量不稳定。
创新点
提出了SEAL一个全面的测试平台用于评估LLMs在工具使用特别是多样化的现实世界APIs中的表现。SEAL通过标准化现有基准并整合基于AutoGen框架的代理系统提供了一个健壮的评估流程。为了解决实时API的不稳定性开发了一个由GPT-4驱动的API模拟器并引入了缓存机制来实现更确定性的评价。
算法模型
SEAL基于AutoGen框架构建了一个灵活的代理系统允许用户根据需求轻松集成和测试不同的代理。SEAL的架构包括API检索器、API执行器、API执行管理器和API模拟器。
实验效果
数据: 使用ToolBench和APIGen基准进行评估。结论: 随着API池的扩大API检索和调用的准确性有所下降但最终响应的通过率变化不大。这表明随着API数量的增加任务变得更加具有挑战性。
推荐阅读指数
★★★★☆
推荐理由: SEAL为评估LLMs在现实世界API交互中的性能提供了一个全面和标准化的框架。
5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling
Authors: Satya Kapoor, Alex Gil, Sreyoshi Bhaduri, Anshul Mittal, Rutu Mulkar https://arxiv.org/abs/2409.15626 定性洞察工具QualIT大型语言模型增强的主题建模
摘要
主题建模是一种广泛用于从大型文本语料库中挖掘主题结构的技术。然而大多数主题建模方法例如潜在狄利克雷分配LDA难以捕捉到准确建模复杂叙述所需的细微语义和上下文理解。最近的进步包括像BERTopic这样的方法它显著提高了主题一致性从而为基准测试建立了新的标准。在本文中我们提出了一种新的方法Qualitative Insights Tool (QualIT)它将大型语言模型LLMs与现有的基于聚类的主题建模方法整合。我们的方法利用LLMs的深度上下文理解和强大的语言生成能力通过聚类丰富了主题建模过程。我们在大量新闻文章的语料库上评估了我们的方法并展示了与基线主题建模技术相比在主题一致性和主题多样性方面的显著改进。
研究背景
主题建模是自然语言处理NLP中用于从非结构化文本数据如社交媒体帖子、新闻文章或客户反馈中提取潜在主题结构的技术。传统的主题建模技术例如LDA存在一些局限性例如单词袋模型的局限性和必须指定聚类数量它们还依赖于预定义的规则和模式难以捕捉自然语言中固有的上下文细微差别和歧义。
问题与挑战
现有的基于聚类的主题建模方法如BERTopic存在局限性例如单词表示过载或每篇文本只能生成一个主题。此外这些方法可能需要领域特定的知识或微调才能达到可接受的性能。
创新点
提出了QualIT一种将预训练的LLMs与聚类技术整合的新方法以系统地解决两种方法的局限性并从自由文本数据中生成更细致和可解释的主题表示。结合了LLMs的自然语言理解和聚类方法的组织和总结数据的能力可以革新主题建模提供强大而富有洞察力的方法来分析大规模文本响应。
算法模型
QualIT包括多个步骤来生成主题然后用于确定文档的子主题。三个关键步骤是
关键短语提取使用LLM提取代表各个文档的关键短语。幻觉检查计算每个短语的一致性得分以确保提取的关键短语的可靠性。聚类使用K-Means聚类算法对关键短语进行分组每组代表具有相似语义内容的文档集合。
实验效果
数据: 使用了包含20,000篇新闻文章的20 NewsGroups数据集。结论: QualIT在主题一致性和主题多样性方面均优于LDA和BERTopic。在20个ground-truth主题上QualIT达到了70%的主题一致性基准模型分别为65%和57%和95.5%的主题多样性基准模型分别为85%和72%。
推荐阅读指数
★★★★☆
推荐理由: QualIT通过结合LLMs和聚类技术提供了一种强大的新方法来分析和理解大规模文本数据中的主题。这项工作为文本分析、主题建模和定性研究领域带来了新的视角和工具对于希望利用LLMs进行深入文本分析的研究者和实践者来说这篇文章提供了有价值的见解和方法。
6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
Authors: Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu https://arxiv.org/abs/2409.15657 M2PT用于零样本指令学习的多模态提示调整
摘要
本文介绍了一种新的多模态提示调整方法M2PT用于对多模态大型语言模型MLLMs进行高效的指令调整。M2PT通过在微调过程中将视觉和文本提示分别集成到视觉编码器和语言处理器中促进了跨模态特征的提取和对齐。在多种多模态评估数据集上的实验结果表明M2PT与几种最新技术基线相比具有更优越的性能。一系列详尽的消融研究验证了我们的提示设计和方法的有效性。
创新点
多模态提示调整首次提出将视觉和文本提示结合用于微调以提高模型对多模态任务的适应能力。跨模态交互通过在不同模态的提示之间设计交互增强了模型对多模态信息的理解和处理能力。参数高效M2PT仅调整模型的极小部分参数大幅减少了训练成本同时保持了优越的性能。
算法模型
M2PT模型的核心在于三个方面的创新设计
视觉提示Visual Prompt在视觉编码器的每一层中嵌入可学习的参数软提示以更好地捕捉视觉输入的语义内容。文本提示Textual Prompt在语言模型LLM中引入文本提示以捕捉文本模式并影响LLM内部的表示。跨模态交互层引入一个可调的交互层以增强视觉编码器提取的特征与文本表示之间的对齐。
实验效果
准确率在多个数据集上M2PT在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。结论M2PT在零样本指令学习任务中展现了强大的性能同时大幅度减少了参数调整的数量实现了计算效率和整体效果的平衡。
推荐阅读指数★★★★☆
推荐理由M2PT通过创新的多模态提示调整策略在保持性能的同时显著减少了参数数量对于资源受限的应用场景具有重要意义。
7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation
Authors: Fuxian Huang, Qi Zhang, Shaopeng Zhai, Jie Wang, Tianyi Zhang, Haoran Zhang, Ming Zhou, Yu Liu, Yu Qiao https://arxiv.org/abs/2409.15806 CLSP: 用于代理状态表示的高保真对比语言状态预训练
摘要
随着人工智能的快速发展多模态学习已成为一个重要的研究领域。对于智能代理来说状态是传递精确信息的关键方式与图像、视频和语言等常见模态一样重要。这在强化学习和多模态大型语言模型的广泛应用中变得尤为明显。尽管如此状态模态的表示仍然发展不足。为此我们提出了一种高保真对比语言状态预训练CLSP方法它可以准确地将状态信息编码成强化学习和多模态大型语言模型的通用表示。具体来说我们首先设计了一个基于分类的预训练任务以训练具有粗粒度信息的编码器。接下来我们构建了状态和语言描述的数据对利用预训练的编码器初始化CLSP编码器。然后我们部署对比学习来训练CLSP编码器以有效地表示精确的状态信息。此外我们使用随机傅里叶特征RFF方法增强数值信息的表示以实现高保真映射。广泛的实验表明我们的表示在文本状态检索、强化学习导航任务和多模态大型语言模型理解方面具有优越的精度和泛化能力。
研究背景
在构建人工智能泛在智能和具身智能的关键技术中多模态数据理解受到了越来越多的关注。作为理解多模态数据的关键技术模态表示将数据编码到潜在的向量空间中以表达信息。当前对多模态数据的研究主要集中在语言、图像、视频和音频数据上但在复杂的具身AI环境中代理的状态通常包含对决策至关重要的丰富信息因此准确表示和理解状态是至关重要的。
问题与挑战
如何从复杂的标量值中提取有用的表示是一个挑战。学习到的表示与原始标量对应的精度往往较低这限制了在后续任务中的可用性。
创新点
高保真对比学习提出一种新颖的框架通过对比学习进一步改善状态编码器的表示能力。随机傅里叶特征使用RFF方法来提高标量值的表示精度。多模态语言模型设计了一个大型多模态模型基于学习到的状态编码器和预训练的语言模型来理解状态信息。
算法模型
CLSP模型有三个步骤
基于分类的预训练通过分类任务预训练编码器获得粗粒度的信息。基于对比的表示学习使用对比学习进一步训练编码器以更好地对齐状态和文本描述。在多模态LLM和RL任务中的应用将学习到的CLSP编码器应用于多模态LLM任务和RL导航任务。
实验效果
文本状态检索在不同的数据集上CLSP在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。强化学习导航任务在RL导航任务中使用CLSP编码的目标状态嵌入与基线相比学习速度更快最终收敛值更高。多模态大型语言模型理解在多模态LLM任务中通过生成的语言输出模型能够将输入状态转换为语言表达。
推荐阅读指数★★★★☆
推荐理由这篇文章在多模态学习领域提出了一种新颖的状态表示方法通过对比学习和随机傅里叶特征提高了状态信息的表示精度对于资源受限的应用场景具有重要意义。此外文章通过详尽的实验和消融研究验证了方法的有效性对相关领域的研究者来说这是一篇值得一读的论文。
8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses
Authors: Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy and Mohammed E. Fouda https://arxiv.org/abs/2409.15687
文章分析总结
文章标题翻译
原文标题: A COMPREHENSIVE EVALUATION OF LARGE LANGUAGE MODELS ON MENTAL ILLNESSES 翻译: 大型语言模型在精神疾病评估中的全面评估
摘要
本研究对大型语言模型LLMs在精神健康任务中的应用进行了全面评估特别是在社交媒体数据的背景下。研究探讨了各种LLMs包括GPT-4、Llama 3、Claude、Gemma、Gemini、Phi-3等在二元障碍检测、障碍严重程度评估和精神医学知识评估等任务上的零样本ZS和少样本FS能力。评估涵盖了从20亿到4000多亿参数的33个模型并使用了9种主要的提示模板。关键发现表明像GPT-4和Llama 3这样的模型在二元障碍检测中表现出色某些数据集上的准确率达到85%。此外提示工程在提高模型性能方面发挥了关键作用。例如当从我们的第一种二元提示过渡到更结构化的提示时某些模型的准确性显著提高。值得注意的是Mixtral 8x22b模型的准确性提高了20%以上而Gemma 7b的性能也有了类似的提升。在障碍严重程度评估任务中FS学习显著提高了模型的准确性突出了复杂评估中上下文示例的重要性。特别是Phi-3-mini模型的性能有了显著提升平衡准确率BA提高了6.80%以上平均绝对误差MAE从ZS学习到FS学习时降低了近1.3。此外在精神医学知识评估任务中较新的模型通常优于旧的、较大的模型Llama 3.1 405b的准确率达到了91.2%。尽管结果充满希望但分析也发现了一些挑战包括跨数据集的性能变化以及需要谨慎的提示工程。此外使用大型模型的高成本和社交媒体数据质量的限制也带来了挑战。此外许多LLM提供商实施的伦理保护阻碍了准确评估它们的性能因为它们倾向于不回应可能敏感的查询。
研究背景
随着人工智能AI在精神卫生领域的迅速发展提出了创新的解决方案来应对全球精神疾病负担的增长。精神疾病在全球疾病负担中占比5.1%影响着全球2.8亿人并导致约70.3万人死于自杀。在美国预计到2040年精神卫生不平等的累积成本将达到14万亿美元。
问题与挑战
如何准确地从社交媒体帖子中检测和评估精神健康障碍。需要谨慎的提示工程来提高模型性能。使用大型模型的高成本。社交媒体数据的质量限制。
创新点
对多种LLMs在精神健康任务上进行了全面评估。探索了零样本和少样本学习能力。强调了提示工程在提高模型性能中的关键作用。在障碍严重程度评估中展示了FS学习的重要性。
算法模型
二元障碍检测使用零样本学习方法检测社交媒体用户是否表现出特定的精神障碍。障碍严重程度评估使用零样本和少样本学习方法评估用户的精神障碍严重程度。精神医学知识评估测试LLMs对基本精神医学概念的知识通过多项选择问题进行评估。
实验效果
二元障碍检测GPT-4和Llama 3等模型在某些数据集上的准确率达到85%。障碍严重程度评估FS学习显著提高了模型的准确性Phi-3-mini模型的平衡准确率提高了6.80%以上平均绝对误差降低了近1.3。精神医学知识评估Llama 3.1 405b的准确率达到了91.2%。
推荐阅读指数
★★★★☆
推荐理由这篇文章对大型语言模型在精神健康领域的应用进行了全面的评估提供了宝贵的见解和数据。 跨学科研究应用。
9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support
Authors: Adil Bahaj and Mounir Ghogho https://arxiv.org/abs/2409.15815 AsthmaBot用于哮喘患者支持的多模态、多语言检索增强生成系统
摘要
全球哮喘患病率由于环境和生活方式因素而上升。在发展中国家获得即时医疗护理的机会尤其有限这就需要自动化的支持系统。大型语言模型LLMs在通用自然语言处理和问答方面取得了进步但它们可能会产生事实上不正确的回答即幻觉。通过整合策划的文档检索增强生成系统可以提高大型语言模型的性能并减少幻觉的发生。我们介绍了AsthmaBot一个用于哮喘支持的多语言、多模态检索增强生成系统。对哮喘相关问题的评估显示了AsthmaBot的有效性。AsthmaBot具有交互式和直观的界面整合了不同的数据模态文本、图像、视频使其能够为更广泛的公众提供服务。
研究背景
过去几十年中全球哮喘患病率上升这不仅仅是由于遗传因素主要是由于环境和生活方式风险因素的影响。哮喘每年导致数千人死亡主要是由于缺乏即时和适当的医疗护理。然而许多哮喘相关死亡是可以通过家庭疗法、锻炼、治疗和行动计划来预防的这些方法可以通过避免触发因素或采用缓解疗法来帮助减轻哮喘患者的症状。
问题与挑战
哮喘患者在获取及时医疗信息方面的挑战。大型语言模型LLMs在提供医疗信息时可能会产生幻觉即生成听起来合理但事实上不正确的回答。现有系统大多只提供文本信息缺乏多模态能力。LLMs存在语言偏见限制了它们在非英语语言中生成信息的质量。
创新点
开发了AsthmaBot一个多语言、多模态的检索增强生成系统用于提供哮喘患者支持。通过整合策划的文档、视频和图像为哮喘相关问题提供基于最新和策划的列表的答案。AsthmaBot的界面整合了不同的数据模态包括文本、图像和视频以更直观和互动的方式提供信息。
算法模型
AsthmaBot后端是一个多模态、多语言检索增强生成的大型语言模型LLM前端是一个聊天机器人形式的界面。AsthmaBot使用检索增强生成RAG技术结合文档集合、检索算法和骨干LLMs。
实验效果
在多语言英语、阿拉伯语、法语和多模态文本、图像、视频的环境下与没有使用RAG的基线相比AsthmaBot在回答问题方面表现更好。实验结果表明将查询翻译成英语然后使用英语提示模型比使用查询的本地语言获得的结果更丰富。
推荐阅读指数★★★★☆
推荐理由这篇文章介绍了一个创新的多模态、多语言系统AsthmaBot用于支持哮喘患者。该系统通过整合策划的文档、视频和图像提高了提供医疗信息的准确性和可靠性。AsthmaBot的设计和实现为解决LLMs在医疗领域应用中的挑战提供了有价值的见解对于自然语言处理和医疗信息检索领域的研究者和从业者来说这是一篇值得一读的论文。
10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations
Authors: Moucheng Xu and Evangelos Chatzaroulas and Luc McCutcheon and Abdul Ahad and Hamzah Azeem and Janusz Marecki and Ammar Anwar https://arxiv.org/abs/2409.15867 通过上下文集成提高视频-语言模型对人类示范的低层次工作流理解
摘要
标准操作程序SOP是基于视频演示的商业软件工作流的逐步书面指南。SOP是实现端到端软件工作流自动化的关键一步。手动创建SOP可能非常耗时。最近在大型视频-语言模型方面的进展为通过分析人类示范的记录来自动化SOP生成提供了可能性。然而当前的大型视频-语言模型在零样本SOP生成方面面临挑战。我们探索了使用视频-语言模型进行SOP生成的上下文学习。我们报告说上下文学习有时可以帮助视频-语言模型进行SOP生成。然后我们提出了一种上下文集成学习方法以进一步提高模型在SOP生成方面的能力。
研究背景
视频-语言模型是一类新兴的大型基础模型吸引了越来越多的研究兴趣。这些模型通常预训练一个视觉编码器将视觉输入投影成标记然后由大型语言模型使用这些标记来解释视觉信号以及文本指令。尽管在视频理解的高级任务如视频摘要上取得了显著成功但当前的视频-语言模型在处理更复杂的任务时仍面临挑战。例如大多数现有模型无法处理长视频或多个短视频。另一个挑战是它们在复杂的低层次视频理解方面的不足。
问题与挑战
如何从视觉输入中自动化地生成准确的SOP。如何提高视频-语言模型在低层次工作流理解方面的能力。
创新点
提出了一种新的上下文集成学习方法ICE通过使用伪标签来增强视频-语言模型在SOP生成方面的表现。通过多模态上下文集成学习使模型能够从超出其上下文窗口限制的更多示例中学习同时具有正则化效果。
算法模型
ICE学习流程首先将多个视频-语言模型应用于不同批次的训练视频及其标准操作程序SOP文本标签。然后同样的微调视频-语言模型为测试视频的SOP创建伪标签。最后另一个视频-语言模型处理测试视频以及伪标签作为先验以生成SOP的最终预测。
实验效果
在WONDERBREAD基准测试的Gold Demo子集中使用ICE方法的GPT-4o-mini模型在召回率方面达到了84.79%而基线模型的召回率为78.13%。Gemini-1.5-flash模型在应用ICE后在召回率方面实现了9.22%的提升。ICE方法显著优于多数投票Ensemble方法突出了在SOP生成中使用多模态训练样本的必要性。 代码链接: https://github.com/moucheng2017/SOP-LVM-ICL-Ensemble
推荐阅读指数★★★★☆
推荐理由这篇文章探讨了如何利用上下文集成学习来提高视频-语言模型在SOP生成任务中的表现这对于自动化业务流程和提高工作效率具有重要意义。文章的实验结果表明所提出的ICE方法能够有效提升模型的预测性能对于自然语言处理和计算机视觉领域的研究人员来说这是一篇值得关注的论文。 后记
如果您对我的博客内容感兴趣欢迎三连击(点赞关注和评论)我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型深度学习计算机视觉相关方向)最新学术论文及工程实践方面的内容分享助力您更快更准更系统地了解 AI前沿技术。