专业网站建设经费申请,西安网站建设行业,做网站需要走哪些程序,网站上的qq咨询怎么做Abstract 大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理#xff0c;在复杂推理方面表现出了令人印象深刻的性能。然而#xff0c;现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT#xff0c;它将语言#xff08;文本…Abstract 大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理在复杂推理方面表现出了令人印象深刻的性能。然而现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT它将语言文本和视觉图像模态合并到一个两阶段框架中将基本原理生成和答案推理分开。 通过这种方式答案推理可以更好地利用基于多模态信息生成的基本原理。 借助 Multimodal-CoT我们的模型在 10 亿个参数下的性能比之前最先进的 LLM (GPT-3.5) 提高了 16 个百分点 (75.17%)→ 91.68的精度甚至超过了ScienceQA基准的人类表现。 代码已公开。1 机器学习、ICML 1介绍 想象一下阅读一本没有图表的教科书。通过对视觉、语言和音频等多种数据模式进行联合建模我们获取知识的能力得到了极大的增强。最近大型语言模型 (LLM) Brown 等人2020年;托皮兰等人2022年;雷伊等人2021年;乔杜里等人2022年通过在推断答案之前生成中间推理步骤在复杂的推理中表现出了令人印象深刻的表现。这种有趣的技术称为思想链 (CoT) 推理Wei 等人2022b;小岛等人2022年;张等人2022年)。 但是与 CoT 推理相关的现有研究很大程度上孤立于语言模态Wang 等人2022b;周等人2022年;卢等人2022b; Fu等人2022年几乎没有考虑多模式方案。为了引发多模态中的 CoT 推理我们提倡 Multimodal-CoT 范式。给定不同模态的输入Multimodal-CoT 将多步骤问题分解为中间推理步骤基本原理然后推断答案。由于视觉和语言是最流行的模式因此我们在这项工作中重点关注这两种模式。图 1 显示了一个示例。一般来说有两种方法可以引发 Multimodal-CoT 推理(i) 提示 LLM 和 (ii) 微调小模型。2 图1多模式COT任务的示例。 执行Multimodal-CoT的最直接方法是将不同模态的输入转换为一种模态并提示LLM执行CoT。例如可以通过字幕模型提取图像的字幕然后将字幕与原始语言输入连接起来输入到 LLM Lu 等人2022a)。然而字幕过程中存在严重的信息丢失因此使用字幕相对于视觉特征可能会因不同模态的表示空间中缺乏相互协同作用而受到影响。 表格1典型的 CoT 技术FT微调KD知识蒸馏。第 1 部分情境学习技巧第 2 部分微调技术。据我们所知我们的工作是第一个以不同方式研究 CoT 推理的工作。此外我们专注于 1B 模型而不依赖于法学硕士的输出。
楷模多式联运无法学硕士型号/发动机训练成本角色成本来源零射击 CoT (Kojima 等人, 2022年✗✗GPT-3.5 (175B)ICL推理模板Few-Shot-CoT (Wei 等人, 2022b✗✗帕LM (540B)ICL推理手工制作self-contistency-cot Wang等人。2022a✗✗法典 (175B)ICL推理手工制作从最少到最多的提示 (Zhou 等人, 2022年✗✗法典 (175B)ICL推理手工制作检索 Zhang等人。2022年✗✗GPT-3.5 (175B)ICL推理自动生成PromptPG-CoT (Lu 等人, 2022b✗✗GPT-3.5 (175B)ICL推理手工制作Auto-CoT (Zhang 等人, 2022年✗✗法典 (175B)ICL推理自动生成复杂性-CoT (Fu 等人, 2022年✗✗GPT-3.5 (175B)ICL推理手工制作Few-Shot-PoT (Chen 等人, 2022年✗✗GPT-3.5 (175B)ICL推理手工制作UnifiedQA (Lu 等人, 2022a✗✓T5770M金融时报解释爬行微调 T5 XXL (Magister 等人, 2022年✗✗T511B肯德基推理LLM生成Fine-Tune-CoT (Ho 等人, 2022年✗✗GPT-3 (6.7B)肯德基推理LLM生成多式联运-CoT我们的工作✓✓T5770M金融时报推理爬行 为了促进模态之间的交互另一个潜在的解决方案是通过融合多模态特征来微调较小的语言模型 (LM)Zhang 等人2023年)。由于这种方法允许灵活地调整模型架构以合并多模态特征因此我们在这项工作中研究微调模型而不是提示法学硕士。关键的挑战是 1000 亿个参数下的语言模型往往会产生幻觉的基本原理从而误导答案推断Ho 等人2022年;马吉斯特等人2022年;吉等人2022年)。 为了减轻幻觉的挑战我们提出了 Multimodal-CoT它将语言文本和视觉图像模态合并到一个两阶段框架中将基本原理生成和答案推理分开。 通过这种方式答案推理可以更好地利用基于多模态信息生成的基本原理。 我们的实验是在 ScienceQA 基准测试上进行的Lu 等人2022a)这是带有注释推理链的最新多模态推理基准。实验结果表明我们的方法超越了之前最先进的 GPT-3.5 模型 16%75.17%→基准为91.68。我们的贡献总结如下 (i) 据我们所知这项工作是第一个以不同方式研究 CoT 推理的工作。 (ii) 我们提出了一个两阶段框架通过微调语言模型来融合视觉和语言表示来执行 Multimodal-CoT。该模型能够生成信息丰富的基本原理以方便推断最终答案。 (iii) 我们的方法在 ScienceQA 基准上实现了新的最先进的性能比 GPT-3.5 的准确性高出 16%甚至超过了人类的表现。 2背景 本节回顾了通过提示和微调语言模型来引发 CoT 推理的最新进展。 2.1使用LLM的COT推理 最近CoT 已被广泛用于激发法学硕士的多步推理能力Wei 等人2022b)。具体来说CoT 技术鼓励法学硕士生成中间推理链来解决问题。研究表明法学硕士可以使用两种主要的技术范式进行 CoT 推理零射击 CoT Kojima 等人2022年和几个射击Wei等人2022b;张等人2022年)。对于零射击 CoTKojima 等人。 2022年) 通过在测试问题后添加“让我们一步一步思考”之类的提示来调用 CoT 推理表明 LLM 是不错的零样本推理机。对于Few-Shot-CoT使用一些逐步的推理演示作为推理的条件。每个演示都有一个问题和一个导致最终答案的推理链。演示通常是通过手工制作或自动生成获得的。因此相应的技术被称为 Manual-CoT Wei 等人2022b) 和 Auto-CoT Zhang 等人2022年)。 通过有效的演示Few-Shot-CoT 往往能取得比 Zero-Shot-CoT 更强的性能并吸引了更多的研究兴趣。因此最近的研究主要集中在如何改进Few-Shot-CoT。这些研究分为两个主要研究方向i优化演示 (ii) 优化推理链。表1比较了典型的 CoT 技术。 优化演示 Few-Shot-CoT 的性能依赖于演示的质量。正如 Wei 等人报道的那样。 2022b)使用不同注释者编写的演示会导致符号推理任务中出现巨大的准确性差异。除了手工制作演示外最近的研究还研究了优化演示选择过程的方法。值得注意的是Rubin 等人。 2022年) 检索了与测试实例语义相似的演示。然而当推理链中出现错误时这种方法会表现出性能下降Zhang 等人2022年)。为了解决这一限制Zhang 等人。 2022年)发现关键是演示问题的多样性并提出了 Auto-CoT(i) 将给定数据集的问题划分为几个集群 (ii) 从每个集群中采样一个代表性问题并使用带有简单启发式的 Zero-Shot-CoT 生成其推理链。此外还提出了强化学习RL和基于复杂性的选择策略以获得有效的演示。 Fu 等人。 2022年)选择了推理链复杂即推理步骤较多的例子作为演示。 Lu 等人。 2022b培训了一个代理商从候选池中找到最佳的文本示例并在与GPT-3.5互动时在给定培训示例中最大化预测奖励。 优化推理链 优化推理链的一种值得注意的方法是问题分解。 周等人。 2022年)提出了从最小到最大的提示将复杂问题分解为子问题然后依次解决这些子问题。因此先前解决的子问题的答案有助于解决给定的子问题。同样Khot 等人。 2022年)使用不同的分解结构并设计不同的提示来回答每个子问题。除了以自然语言文本提示推理链之外Chen 等人。 2022年) 提出了思维程序 (PoT)它将推理过程建模为程序并提示法学硕士通过执行生成的程序来得出答案。另一个趋势是对测试问题的多个推理路径进行投票。 王等人。 2022a) 引入了一种自一致性解码策略来对 LLM 的多个输出进行采样然后获得最终答案的多数。 王等人。 2022b) 和 Li 等人。 2022b)在输入空间中引入随机性以产生更多样化的投票输出。 2.2通过微调模型引发 CoT 推理 最近的一个兴趣是通过微调语言模型来引发 CoT 推理。 Lu 等人。 2022a) 使用 CoT 注释在大规模数据集上微调编码器-解码器 T5 模型。然而当使用 CoT 来推断答案时即在答案之前生成推理链推理时会观察到性能急剧下降。相反CoT 仅用作答案后的解释。 Magister 等人。 2022年) 和 Ho 等人。 2022年) 通过根据较大的教师模型生成的思想链输出对学生模型进行微调从而采用知识蒸馏。所提出的方法在算术、常识和符号推理任务中显示出性能提升。 将 1B 模型训练为 CoT 推理器存在一个关键挑战。正如 Wei 等人所观察到的。 2022b低于1000亿个参数的模型往往会产生不合逻辑的婴儿从而导致错误的答案。换句话说比直接生成答案1B模型生成有效的COT可能更难。在多模式环境中回答问题还需要了解多模式输入的情况变得更加具有挑战性。在下一部分中我们将探讨多模式-COT的挑战并研究如何执行有效的多步推理。 3多模式-COT的挑战 现有研究表明CoT 推理能力可能会出现在一定规模的语言模型中例如超过 1000 亿个参数Wei 等人2022a)。然而在 1B 模型中引发这种推理能力仍然是一个尚未解决的挑战更不用说在多模态场景中了。这项工作重点关注 1B 模型因为它们可以使用消费级 GPU例如 32G 内存进行微调和部署。 在本节中我们将研究 1B 模型在 CoT 推理中失败的原因并研究如何设计一种有效的方法来克服这一挑战。 3.1致力于COT的角色 首先我们对ScienceQA基准的COT推理进行微调Lu等2022a)。按照 Lu等。 2022a我们采用unifiedqa Khashabi等人2020年在模型在输入中获取文本信息并生成输出序列 这包括理由和答案。作为图中所示的示例 1 该模型采用 问题文本q的代币上下文文本c和多个选项M的串联作为输入。为了研究COT的效果我们将性能与三种变体进行了比较i直接预测答案QCM →A; (ii) 答案推理以基本原理为条件的推理 (QCM→RA; iii解释基本原理用于解释答案推理QCM→增强现实。 表2COT在一个阶段设置中的影响。
方法格式准确性禁止质量控制模块→A80.40推理质量控制模块→RA67.86解释质量控制模块→增强现实69.77 图2用于生成基本原理和预测答案的不带视觉特征基线和带视觉特征我们的的两阶段框架示例。上半部分展示了带有黄金原理的问题细节下半部分显示了基线的输出以及我们与视觉特征相结合的方法。我们观察到由于幻觉原理的误导基线未能预测正确的答案。更多示例请参见附录A.1。 令人惊讶的是我们观察到↓12.54的精度降低80.40→67.86%如果模型在答案之前预测基本原理QCM→RA。结果表明基本原理可能不一定有助于预测正确答案。 Lu 等人也观察到了类似的现象。 2022a)其中可能的原因可能是模型在获得所需答案之前超出了最大令牌限制或提前停止生成预测。然而我们发现生成的输出RA的最大长度始终小于 400 个 token这低于语言模型的长度限制即 UnifiedQA 中的 512。 因此值得更深入地研究为什么其理由会损害答案推理。 3.2幻觉的理由误导 为了深入了解基本原理如何影响答案预测我们将 CoT 问题分为两个阶段基本原理生成 和 回答推理。我们分别报告基本原理生成和答案推理的 RougeL 分数和准确性。表3显示了基于两阶段框架的结果。尽管两阶段基线模型的推理生成 RougeL 得分为 91.76但答案推理准确率仅为 70.53%。与QCM相比→表中的一个变体80.40%2结果表明两阶段框架中生成的基本原理并没有改善答案准确性。 表3(i) 基本原理生成 (RougeL) 和 (ii) 答案推理 (Accuracy) 的两阶段设置。
方法(一) 质量控制模块→右(ii) QCMR→A两阶段框架91.7670.53 带字幕91.8571.12 带视觉功能96.9784.91 然后我们随机采样了 50 个错误案例发现模型倾向于生成误导答案推断的幻觉原理。如图2所示的示例模型左侧部分幻想“一个物体的南极由于缺乏对视觉内容的参考磁铁最接近另一个磁铁的南极”。 我们发现此类错误在错误案例中的比例为 64%图3(a)。 图3幻觉错误率 (a) 和视力特征纠正率 (b)。 图4我们的 Multimodal-CoT 框架概述。 Multimodal-CoT 包含两个阶段(i) 基本原理生成和 (ii) 答案推理。两个阶段共享相同的模型架构但输入和输出不同。在第一阶段我们向模型提供语言和视觉输入以生成基本原理。在第二阶段我们将原始语言输入附加到第一阶段生成的基本原理。然后我们将更新后的语言输入与原始视觉输入一起输入模型以推断答案。
3.3多模态有助于有效的理论依据 我们推测这种幻觉现象是由于缺乏执行有效的 Multimodal-CoT 所需的视觉环境造成的。要注入视觉信息一种简单的方法是将配对图像转换为标题Lu et al., 2022a) 然后将标题附加到两个阶段的输入中。然而如表 3 所示使用字幕只能带来边际性能提升 (↑0.59%。然后我们通过将视觉特征融入到语言模型中来探索一种先进的技术。具体来说我们将配对图像输入 DETR 模型Carion 等人2020年) 提取视觉特征。然后我们将视觉特征与编码的语言表示融合然后再馈送到解码器更多详细信息将在第 4 节中介绍。有趣的是有了视觉特征推理生成的 RougeL 分数提升到了 96.97%QCM→R)相应地有助于提高 84.91% 的答案准确性 (QCMR→A)。 有了这些有效的理据幻觉现象得到缓解——第3.2节中62.5%的幻觉错误已得到纠正图3(b))如图2右部分所示。4 迄今为止的分析令人信服地表明视觉特征确实有利于生成有效的理由并有助于准确的答案推理。作为两阶段方法QCMR→表中的A)3比表2中的所有单阶段方法获得了更好的性能我们在 Multimodal-CoT 框架中选择两阶段方法。 4多式联运CoT 根据第 3 节中的观察和讨论我们提出 Multimodal-CoT 来合并语言文本和视觉图像模态分为两阶段框架。在本节中我们将首先概述框架的流程然后详细阐述模型架构的技术设计。 4.1框架概述 Multimodal-CoT 包含两个训练阶段(i) 基本原理生成和 (ii) 答案推理。两个阶段共享相同的模型架构但输入不同和输出是。整体流程如图 4 所示。我们将以 Vision-Language 为例来展示 Multimodal-CoT 的工作原理。 在基本原理生成阶段我们为模型提供{语言1,想象}在哪里语言1代表第一阶段的语言输入想象代表视觉输入即图像。例如 可以实例化为多项选择推理问题的问题、上下文和选项的串联Lu 等人2022a)如图4。目标是学习基本原理生成模型右在哪里右是基本原理。 在答案推理阶段推理右附加到原始语言输入语言1构建第二阶段的语言输入语言2语言1∘右在哪里∘表示串联。然后我们提供更新后的输入′{语言2,想象}到答案推理模型来推断出最终答案′。 在这两个阶段我们独立训练具有相同架构的两个模型。他们采用带注释的元素例如→右,右→分别来自监督学习的训练集。在推理过程中给定使用第一阶段训练的模型生成测试集的基本原理它们在第二阶段用于答案推理。 4.2模型架构 给定语言输入语言ε{语言1,语言2}和视觉输入想象我们计算生成目标文本的概率是图 4中的基本原理或答案长度氮经过 是|语言,想象∏我1氮是我∣语言,想象,是我,(1) 在哪里是我∣语言,想象,是我 使用基于 Transformer 的网络实现Vaswani 等人2017年)。网络具有三个主要过程编码、交互和解码。具体来说我们将语言文本输入 Transformer 编码器以获得文本表示然后将其与视觉表示进行交互和融合然后输入 Transformer 解码器。 编码 该模型接受语言和视觉输入并获得文本表示语言和图像特征想象通过以下功能 语言语言编码器语言,(2)想象瓦⋅视觉提取器想象,(3) 其中语言编码器⋅作为 Transformer 模型实现。我们使用 Transformer 编码器中最后一层的隐藏状态作为语言表示语言εℝ×在哪里表示语言输入的长度并且是隐藏维度。 同时VisionExtractor⋅) 用于将输入图像矢量化为视觉特征。受到 Vision Transformers 最近成功的启发Dosovitskiy 等人2021年)我们通过现成的视觉提取模型获取块级特征5 例如 DETR Carion 等人2020年)。获得块级视觉特征后我们应用可学习的投影矩阵瓦来转换形状视觉提取器想象进入那个语言;因此我们有想象εℝ米×在哪里米是补丁的数量。 算法 1 多模式-CoT 1语言输入语言1, 视觉输入想象 2产生的理由右, 推断答案 3构造输入{语言,想象} 4产生理由右使用模型⋅ 5附上理由右到原始语言输入语言2语言1∘右。 6构建新的输入′{语言2,想象} 7推断答案通过调节新的输入′。 8 程序F( 9 对语言和视觉输入进行编码语言和想象 分别 10 通过注意力建立语言和视觉特征之间的交互想象收件人 11 保险丝语言和想象收件人通过门控融合机制保险丝 12 喂养保险丝到解码器以获得目标预测是 13 返回 是 14 结束 程序 相互作用 获得语言和视觉表示后我们使用单头注意网络将文本标记与图像补丁相关联其中查询 钥匙 和值 是语言,想象和想象 分别。注意力输出想象收件人εℝ×定义为 想象收件人软最大⊤,(4) 在哪里与 的维度相同语言因为使用的是单头。 然后我们应用门控融合机制Zhang 等人2020年;吴等人2021年;李等人2022a)融合语言和想象。融合输出保险丝εℝ×是通过以下方式获得的 乙状结肠瓦我语言瓦想象收件人,(5)保险丝1-⋅语言⋅想象收件人,(6) 在哪里瓦我和瓦是可学习的参数。 解码 最后融合输出保险丝被输入 Transformer 解码器来预测目标是。 Multimodal-CoT 的完整流程如算法1所示。 表 4主要结果 (%)。尺寸 主干模型尺寸。问题类别NAT 自然科学、SOC 社会科学、LAN 语言科学、TXT 文本上下文、IMG 图像上下文、NO 无上下文 G1-6 1-6 年级G7-12 7-12 年级。除我们之外的结果均来自Lu 等人。 2022a)。 第 1 部分人类表现第 2 部分VQA 基线第 3 部分UnifiedQA 基线第 4 部分GPT-3.5 基线第 5 部分我们的 Multimodal-CoT 结果。 粗体结果是最佳性能。
模型尺寸网络地址转换SOC局域网TXT免疫组化不G1-6G7-12 平均人类-90.2384.9787.4889.6087.5088.1091.5982.4288.40MCAN (Yu 等人, 2019年95M56.0846.2358.0959.4351.1755.4051.6559.7254.54自上而下(Anderson 等人, 2018年70M59.5054.3361.8262.9054.8859.7957.2762.1659.02禁令(Kim 等人, 2018年112M60.8846.5766.6462.6152.6065.5156.8363.9459.37DFAF (高等人, 2019年74M64.0348.8263.5565.8854.4964.1157.1267.1760.72ViLT (Kim 等人, 2021年113M60.4863.8960.2763.2061.3857.0060.7261.9061.14补丁 TRM (Lu 等人, 2021年90M65.1946.7965.5566.9655.2864.9558.0467.5061.42VisualBERT (Li 等人, 2019年111M59.3369.1861.1862.7162.1758.5462.9659.9261.87统一质量保证 (Khashabi 等人, 2020年223M68.1669.1874.9163.7861.3877.8472.9865.0070.12统一质量保证 与 CoT (Lu 等人, 2022a223M71.0076.0478.9166.4266.5381.8177.0668.8274.11GPT-3.5 (Chen 等人, 2020年175B74.6469.7476.0074.4467.2877.4276.8068.8973.97GPT-3.5 w/ CoT (Lu 等人, 2022a175B75.4470.8778.0974.6867.4379.9378.2369.6875.17多模式CoT223M87.5277.1785.8287.8882.9086.8384.6585.3784.91多模式CoT738M95.9182.0090.8295.2688.8092.8992.4490.3191.68
表 5Multimodal-CoT 的消融结果。
模型网络地址转换SOC局域网TXT免疫组化不G1-6G7-12 平均多式联运CoT87.5277.1785.8287.8882.9086.8384.6585.3784.91 没有两阶段框架80.9987.4081.9180.2578.8383.6282.7882.2082.57 不带视觉功能71.0970.7569.1871.1665.8471.5771.0069.6870.53
5实验 本节将介绍基准数据集、我们技术的实现以及比较的基线。然后我们将报告我们的主要结果和发现。 5.1数据集 我们的方法在 ScienceQA 基准上进行评估Lu 等人2022a)。 ScienceQA 是第一个大规模多模式科学问题数据集它通过详细的讲座和解释来注释答案。它包含 21,000 道多模态多项选择题涵盖 3 个学科、26 个主题、127 个类别和 379 项技能具有丰富的领域多样性。基准数据集分为训练、验证和测试部分分别包含 12726、4241 和 4241 个示例。 5.2执行 以下部分介绍 Multimodal-CoT 的实验设置和基线方法。 实验设置 由于 Multimodal-CoT 任务需要生成推理链并利用视觉特征因此我们使用 T5 编码器-解码器架构Raffel 等人2020年)。具体来说我们采用 UnifiedQA Khashabi 等人2020年) 在两个阶段初始化我们的模型因为它在 Lu 等人中实现了最佳微调结果。 2022a)。为了验证我们的方法在不同 LM 中的通用性我们还采用了 FLAN-T5 Chung 等人2022年) 作为第 6.3 节的主干。由于在第 3.3 节中使用图像标题不会产生显着的性能提升因此我们没有使用标题。我们将模型微调最多 20 个 epoch学习率为 5e-5。最大输入序列长度为 512。基础模型和大型模型的批量大小分别为 16 和 8。我们的实验在 4 个 NVIDIA Tesla V100 32G GPU 上运行。 基线模型 以下Lu 等人。 2022a)我们的基准包括 (i) 视觉问答 (VQA) 模型Anderson 等人2018年;金等人2018年;余等人2019年;高等人2019年;金等人2021年;卢等人2021年;李等人2019年); (ii) 文本到文本的语言模型。 卡沙比等人2020年); (iii) GPT-3.5 模型Chen 等人2020年)。更多详情请参见附录B.1。 5.3主要结果 表4显示了主要结果。多模式-CoT优于 GPT-3.5 16.51% (75.17%→91.68%并超越了人类的表现。具体来说在 8 个问题类别中Mutimodal-CoT达到 21.37% (67.43%→对于具有配对图像 (IMG) 的问题性能提升 88.80%。与利用上下文中的图像说明提供视觉语义的现有 UnifiedQA 和 GPT-3.5 方法相比结果表明使用图像特征更有效。此外根据表 5 中的消融研究结果我们的两阶段框架有助于取得优异的结果。总的来说结果验证了多模态的有效性以及通过我们的两阶段框架使用 1B 模型实现 CoT 推理的潜力。 6分析 以下分析将研究 Multimodal-CoT 的工作原理并讨论影响因素和限制。除非另有说明我们使用基本尺寸下的模型进行分析。 pt1pt2pt3pt4pt5pt6pt7pt8pt9pt10pt40pt50pt60pt70pt80pt90ptEpochptAccuracyOne-stage BaselineOne-stage MultimodalTwo-Stage BaselineTwo-Stage Multimodal
图5No-CoT 基线和 Multimodal-CoT 变体跨时期的准确度曲线。
6.1多模态促进融合 图5展示了基线和Multimodal-CoT在不同训练epoch下的评估精度曲线。 “单级”基于QCM→表中实现最佳性能的输入输出格式2“两阶段”是我们的两阶段框架。我们发现与无需 CoT 直接生成答案的单阶段基线相比两阶段方法在开始时获得了相对较高的准确度。然而如果没有视觉特征随着训练的进行由于低质量的基本原理两阶段基线无法产生更好的结果如第 3。相比之下 使用视觉特征有助于生成更有效的原理有助于提高我们的两阶段多模态变体的答案准确性。 6.2使用不同的视觉特征 不同的视觉特征可能会影响模型的性能。我们比较了三种广泛使用的视觉特征类型CLIP Radford 等人2021年)DETR Carion 等人2020年) 和 ResNet He 等人2016年)。 CLIP 和 DETR 是类似补丁的功能其中 DETR 基于对象检测。对于ResNet特征我们将ResNet-50的池化特征与文本序列重复相同的长度以模仿类补丁特征其中每个补丁与池化图像特征相同。有关视觉功能的更多详细信息请参见附录B.2。 表 6使用不同视觉特征的准确度%。
方法一级两级 带夹子81.2184.81 带 DETR82.5784.91 带 ResNet80.9784.77 表6显示了视觉特征的比较结果。我们观察到使用视觉特征通常比仅使用语言基线获得更好的性能。具体来说DETR总体上取得了相对较好的性能。因此我们在Multimodal-CoT中默认使用DETR。 6.3跨骨干模型的总体有效性 为了测试我们的方法对其他骨干模型的好处的普遍性我们将底层 LM 更改为不同大小或类型的其他变体。如表7所示我们的方法对于广泛使用的骨干模型通常是有效的。 表 7不同主干语言模型的准确率 (%)。
方法尺寸仅语言多模式CoT统一质量保证223M80.4084.91统一质量保证738M83.6091.68法兰-T5248M83.4285.85法兰-T5783M85.1993.02
6.4误差分析 为了更好地理解 Multimodal-CoT 的行为并促进未来的研究我们手动调查由我们的方法生成的随机选择的示例。表8总结了Multimodal-CoT生成的分类结果。我们随机抽取了 50 个答案正确的样本和 50 个答案不正确的样本。附录C中提供了每个类别的相应示例。 表8Multimodal-CoT 的分类分析。
回答交易费用类别百分比 正确的科特是正确的90科特不正确10不正确常识性错误82逻辑错误12科特是正确的6 我们发现正确的样本即答案正确包含一定量的错误思路10%。结果表明CoT 可能并不总是有利于答案推理并且该模型在某种程度上是鲁棒的——它可以通过忽略不正确的理由来预测正确的答案。对于不正确的样本即答案不正确CoT 中的常识性错误是最常见的错误类型 (88%)。当回答需要常识知识的问题时模型经常犯常识性错误例如理解地图和计算图像中的数字图9并利用字母表图10。另一类错误是逻辑错误12%推理链存在矛盾图11。此外有些案例的 CoT 正确6%但答案不正确但可能与答案选项不一定相关图 12。 分析表明未来研究有前瞻性的方向。可以通过以下方式改进 Multimodal-CoTi结合更多信息丰富的视觉特征并改进语言视觉交互使其能够理解地图和计数 (ii) 注入常识性知识 (iii)应用过滤机制例如仅使用有效的CoT来推断答案并去除不相关的CoT。 7结论 我们正式研究多模态 CoT 问题。我们提出了 Multimodal-CoT它将语言和视觉模态合并到一个两阶段框架中将基本原理生成和答案推理分开因此答案推理可以更好地利用多模态信息生成的基本原理。通过 Multimodal-CoT我们证明我们的方法在 ScienceQA 基准上的准确度比 GPT-3.5 高出 16 个百分点。我们的错误分析表明在未来的研究中有可能利用更有效的视觉特征、注入常识知识并应用过滤机制来改进 CoT 推理。