站外引流推广渠道,六安城市网官网,互联网站备案手续,个人网站制作教程本文转载自公众号“夕小瑶的卖萌屋”#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后#xff0c;回复以下口令#xff1a; 回复【789】 #xff1a;领取深度学习全栈手册#xff08;含NLP、CV海量综述、必刷论文解读#xff09; 回复【入群】#xf… 本文转载自公众号“夕小瑶的卖萌屋”专业带逛互联网算法圈的神操作 -----》我是传送门 关注后回复以下口令 回复【789】 领取深度学习全栈手册含NLP、CV海量综述、必刷论文解读 回复【入群】加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群大V、顶会审稿人云集 回复【0511】领取算法岗面试手册刷offer神器 回复【0424】领取刷论文神器挖掘每日、每月必刷重磅论文 文 | 黄浴 源 | 知乎 这两年incremental/continual/lifelong learning已成为一个热点下面介绍3篇该领域的综述论文。 小伙伴们可以在 【夕小瑶的卖萌屋】 订阅号后台回复关键词【1218】获取下述3篇综述论文PDF~ One 第一篇是“Continual Lifelong Learning with Neural Networks: A Review“2019年2月也发表于Neural Networks 人和高级动物在整个生命中不断获取、微调和转让知识和技能。这种能力称为lifelong learning是由一系列神经认知机制协调的过程这些机制共同促进了sensorimotor技能的发展以及对长期记忆的巩固和检索。因此对于计算系统和自动化智体lifelong learning能力对能否在现实世界进行交互并处理连续信息至关重要。 但是长期来看lifelong/continual learning仍然是机器学习和神经网络模型的挑战因为从非平稳数据分布中不断递增地获取可用信息通常会导致catastrophic forgetting或者interference问题即用新信息训练模型的时候会干扰先前学习的知识。这种现象通常会导致性能突然下降或者最坏的情况下导致旧知识被新知识完全overwrite。对于拿固定训练数据来学习的深度神经网络模型其随时间递增的信息无法可用这一点会成为一个主要缺陷。 在这篇综述中总结了与人工学习系统的continual/lifelong learning相关挑战并比较了现有那些在不同程度上减轻catastrophic forgetting的NN方法。尽管NN在特定领域学习方面已取得了重大进展但要在自动化智体和机器人上开发强大的lifelong learning还需要进行大量研究。为此作者讨论了由生物系统中的lifelong learning因素所激发的各种研究如structural plasticity、memory replay、curriculum transfer learning、intrinsic motivation和multisensory integration等。 当前的深度神经网络学习模型依赖于标注训练样本。但这种学习方案是假定训练阶段所有样本可用因此需要在整个数据集对网络参数进行重训练以适应数据分布的变化。常规神经网络模型训练串行任务时候新任务的学习会使先前学习的任务性能大大降低。尽管重新training from scratch从实用上解决了catastrophic forgetting但效率极低还阻碍了实时地学习新数据。 为克服catastrophic forgetting学习系统一方面必须能连续获取新知识和完善现有知识另一方面还应防止新数据输入明显干扰现有的知识。为了整合新输入信息系统必须具有怎样的可塑性以及为了不灾难性地干扰合并的知识而必须具有怎样的稳定性这个问题称作稳定性-可塑性stability-plasticity难题其在生物系统和计算模型领域也得到了广泛研究。由于lifelong learning的挑战性许多从哺乳动物大脑学习汲取灵感的计算方法也被拿出来研究。 人类擅长终生学习并根据学习的sensorimotor偶然性做出适当的决定。终身学习的生物学方面及其基于生物学的神经网络体系结构建模方面本文对此也做了介绍。neurosynaptic可塑性在多个大脑区域可以调节稳定性-可塑性的平衡。可塑性是大脑在细胞和电路水平上神经延展性的基本特征。一个稳定、连续和终生的过程需要两种类型的可塑性i正反馈不稳定性的Hebbian可塑性以及ii稳定神经活动补偿性的homeostatic可塑性。从实验上已经观察到通过降低synaptic突触可塑性速率有特别的机制可保护先前学习任务的知识也避免学习新任务中遇到的干扰。Hebbian学习和homeostatic这两个可塑性共同促使神经电路的稳定是形成经验驱动之连接性、集成性和功能性的最佳模式。 如图是neurosynaptic adaptation的两种形式a带homeostatic可塑性的Hebbian learning 和 bCLScomplementary learning systems理论。 重要的是大脑会做两项互补的任务跨经验泛化和保留类似事件的特定记忆。所以本文介绍互补学习系统CLS理论即有效提取感知事件的统计结构泛化同时保留情节记忆即在特定时间和地点收集的经验。CLS理论定义了hippocampus和neocortex在学习和记忆方面的互补作用它告诉人类认知系统中存在专门的机制来保护巩固的知识。hippocampal系统表现出短期适应性并允许快速学习新信息neocortex系统将新信息转移并整合做长期存储其特点在于学习速度慢做一般性学习。尽管如此在某些情况下灾难性遗忘仍然可能发生。 终身学习的神经生理学研究刺激了机器学习和神经网络领域的研究。作者介绍并比较了解决灾难性遗忘的计算方法。最新的学习模型包括i调节synaptic可塑性的内在水平以保护巩固的知识ii分配额外的神经资源来学习新信息并且 iii使用CLS进行记忆整合和体验重放。一方面这些方法绝大多数旨在解决在有限标注数据集上的终身监督学习问题并不扩展到更复杂的场景如部分未标记序列。另一方面无监督终身学习主要是采用自组织神经网络。 终身学习系统被定义为一种能够从连续信息流学习的自适应算法随着时间的流逝这些信息逐渐变得可用并且未定义要学习的任务量例如分类任务的会员资格类别 。在连接主义connectionist模型当要学习的新实例与先前观察的实例出现明显不同时会发生灾难性遗忘。脱机学习时由于智体反复看到相同的伪随机重排样本可以弥补这种知识的损失但是当数据是连续流而且无法重排时这是不可能做到的。灾难性遗忘已被研究了二十多年尤其是在反向传播BP学习的网络和Hopfield网络。 减轻灾难性遗忘的早期尝试包括存储以前数据的存储系统其定期重放那些与新数据抽取样本做交错的旧样本。而这些方法至今仍在使用。但是基于内存系统的一般缺点是它们需要显式地存储旧信息从而增加大量的工作内存需求。此外在固定神经资源的情况下应设计专门的机制来保护合并的知识不被新信息的学习所覆盖。直觉上可以通过分配额外的神经资源来极大地减轻灾难性的遗忘。但是这样可能会导致规模化scalability问题因为非常庞大的神经体系结构会使计算工作量大大增加。相反由于终生学习无法事先知道任务量和每个任务的样本预定义足够量的神经资源将变得很重要因为这样的话不知道输入分布就可以防止灾难性遗忘。在这种情况下避免连接主义模型的灾难性遗忘有三个关键点i为新知识分配额外的神经资源ii如果资源固定则使用非重叠的表示形式iii把新信息和旧知识交织一起在表示中。 人类大量利用时空关系和感知输入的高阶关联来学习和触发行为反应。相反人工学习系统通常是分批训练的按伪随机顺序将相同训练样本送给学习算法做多次迭代。做固定量的训练epoch之后学习算法可以调整其内部表示并且可以预测和训练数据集有相似分布的新样本。显然这种方法是有效的但并未反映出终身学习任务的特点。从概念上讲这些方法可以分为1重新训练整个网络同时进行正则化防止以前学过的任务造成灾难性遗忘2选择性训练网络并在必要时扩展以代表新网络3 为记忆整合建模互补学习系统例如用内存重放来合并内部表示。 如图所示即终生学习的一些神经网络方法a) 带正则化的retraining, b) network extension 和 c) 可能扩展的selective retraining。 正则化方法通过对神经权重的更新施加约束来减轻灾难性的遗忘。这些方法通常受到理论神经科学模型的启发其模型表明通过一个产生不同程度可塑性级联状态的突触synapses可以保护巩固的知识以免遗忘。从计算角度来看实际是附加正则项建模惩罚神经网络映射函数的变化。文章分析了learning without forgetting (LwF)、elastic weight consolidation (EWC) model、Ensemble方法的fixed expansion layer (FEL)。 Dynamic Architectures方法对新信息的响应是通过动态适应新的神经资源改变体系结构属性例如增加神经元或网络层进行重新训练。 在CLS方法和内存重放方面文中提到两个递增学习方法i修改的自组织图SOM和ii扩展了短期记忆STM的SOM记作GeppNet和GeppNet STM。还有一个Gradient Episodic MemoryGEM模型该模型将知识积极转移到先前的任务中。GEM最小化灾难性遗忘的特点是一种情景记忆episodic memory存储给定任务中观察到的示例子集。一个evolvable Neural Turing MachineENTM能够通过逐步分配附加外部存储组件来存储长期记忆。ENTM的配置可以执行新关联的one shot学习减轻递增学习任务期间的灾难性遗忘。 尽管在采用结构化正则化或动态体系结构更新等学习方法的设计方面大家已取得了重大进展但在终身/递增学习incremental learning任务中这些算法的严格评估却很少。为此作者讨论了使用和设计量化指标去测量大规模数据集的灾难性遗忘。如图是一些做终生学习的benchmark数据集a) MNIST dataset, b) Caltech-UCSD Birds-200 (CUB-200) dataset 和 c) CORe50。 如下是一些方法的结果数据集有MNIST (a), CUB-200 (b), 和 AudioSet (c) 方法有FEL (红色), MLP (黄色), GeppNet (绿色), GeppNetSTM (蓝色), EWC (粉色), 和 offline model (虚点线)。 神经网络方法通常设计为递增地适应在受控环境收集通常为合成的的数据样本这与人类生命中遭受的生态条件截然不同。在现实世界中智体必须处理感官不确定性有效地处理多感官信息的连续数据并有效地学习多个任务避免灾难性地干扰先前学习的知识。直观地看上述神经网络模型与更复杂的终身学习智体之间存在着巨大的差距后者希望从连续的sensorimotor体验中递增学习。 人类可以轻松获得新技能并跨领域和跨任务迁移知识而人工学习系统仍处于这样能力的起步阶段即所谓的迁移学习。此外与使用单感官例如视觉或听觉信息训练神经网络方法的趋势相反人类大脑从多感官信息整合中受益也在感知不确定情况下提供有效交互的手段。大脑早期发展的多感官和sensorimotor的专长激发了关于自主智体的大量研究。本文回顾了生物学学习动机所激发的计算方法其中包括critical developmental stages和curriculum learning为学习新任务做知识重用的transfer learning还有由内在动机和自我监督驱动为环境自主探索的reinforcement learning以及用于跨模式终身学习的多感官系统。 如图是开发自主智体在复杂环境长时间学习的主要部件图Developmental curriculum learning, transfer learning, curiosity intrinsic motivation, crossmodal learning。 发展性学习Developmental learning 实时调节智体与环境的具体交互。与提供大量信息的计算模型相反发展性智体基于其sensorimotor经验以自主方式获得越来越复杂的技能。因此**分阶段发展staged development**对于以较少的辅导经验来提升认知能力至关重要。主动推理模型旨在了解如何通过动作和感知的双边使用来选择在动态和不确定环境下最能暴露原因的数据。 有意义的方式组织示例例如使学习任务难度逐渐变大人和动物的学习性能会更好即课程学习curriculum learning。这激发了机器人技术中的类似方法和关于课程学习影响学习绩效的新机器学习方法。一些数据集例如MNIST进行的实验表明课程学习可作为无监督的预训练提高泛化能力并加快训练收敛速度。但是课程学习的有效性对于任务进展方式非常敏感。课程策略可以看作是迁移学习的特例在初始任务收集的知识用来指导复杂的学习过程。 迁移学习方法见上图前向迁移是指学习任务TA对未来任务TB性能的影响而后向迁移是指当前任务TB对先前任务TA的影响。因此假设同时学习多个学习任务以提高一项特定任务的性能迁移学习代表了一种人工系统的重要功能即从有限量的特定样本推断一般规律。迁移学习一直是机器学习和自主智体的一个开放的挑战。尽管说通过编码个体、目标或场景元素不变关系信息的概念表示抽象知识的迁移得以实现但人们对大脑的特定神经机制调节高级迁移学习的了解却很少。零样本学习和单样本学习在新任务上表现出色但不能防止灾难性遗忘。 Intrinsic Motivation的计算模型从人类婴幼儿选择目标并逐步掌握技能的方式中获得启发以此定义终身学习框架的发展结构。内在动机的计算模型可以通过学习课程的在线自生成来收集数据并逐步获得技能。这允许通过主动控制复杂度的增长来有效和随机地选择学习任务。增强学习reinforcement learning的最新工作包括curiosity和Intrinsic Motivation以解决奖励稀少或具有欺骗性的情况。在外部奖励非常稀疏的情况下curiosity-driven exploration会提供内在的奖励信号使智体能够自主地、逐步地学习日益复杂的任务。 整合多种感官信息的能力是大脑的关键特征它与环境产生连贯、健壮和有效的交互作用。来自不同感官例如视觉、音频和本体感知的信息可以集成到多感官表示中或用于增强单感官表示。 多感官处理Multisensory Learning 是交叉模式激励的物理特性、先验知识、期望例如学习的相关性、协同scaffolding感知、认知和行为之间相互作用的结果。Multisensory Learning的过程在整个生命是动态的会受到短期和长期变化的影响。它由外在和内在exogenous endogenous因素的动态加权组成这些因素决定了多模态如何相互影响。 形成采用越来越复杂高级特征例如语义一致性学习的感知表示之前低级激励特征例如空间相近度和时间匹配度是可用的。在开发过程中带多感官整合的复杂感知机制从基本的处理能力开始基于sensorimotor经验逐渐向更复杂的认知功能发展。 Two 第二篇“A continual learning survey: Defying forgetting in classification tasks“2020年5月注也发表在IEEE T-PAMI作者来自KU Leuven和华为公司。 人工神经网络在解决特定刚性任务的分类问题上很厉害通过来自不同训练阶段的泛化学习行为获取知识。最终的网络类似于静态的知识体努力在不针对原始任务的情况下扩展知识从而导致catastrophic forgetting。continual learning将这种形式转移到可以不断积累不同任务知识的网络无需retrain from scratch。这个综述专注于task incremental classification即任务按顺序出现并由清晰的边界划定。本文主要工作包括 最新技术的分类和总结 使一个continual learner连续地确定stability-plasticity 折衷的新框架 对11种最先进的continual learning方法和4个baseline进行全面的实验比较。 考虑到Tiny Imagenet和大规模unbalanced数据集iNaturalist以及一系列识别任务的数据集作者在三个基准上对各种方法的优缺点进行了经验检查在模型容量、权重衰减和dropout正则化的影响、任务的顺序、所需的内存、计算时间和存储方面定性地进行比较。 主要的标准是学习过程的串行性质一个/多个任务仅有一小部分输入数据可用。主要的挑战是学习时要避免catastrophic forgetting随着新任务或领域的加入先前学习的任务或领域其性能不应随时间显著下降。这是神经网络一个普遍问题造成的直接结果即稳定性-可塑性难题stability-plasticity dilemma可塑性指整合新知识的能力而稳定性是指在编码时会保留先前的知识。 作者考虑的Task Incremental Learning问题需要设置一系列任务一次仅接收一个任务的训练数据然后执行训练直到收敛。Task Incremental Learning的焦点就是在如下函数最优化情况下找到最优参数其中数据XY分布D任务tT损失函数ℓ, 参数 θf网络函数。 其中任务T的统计risk近似为经验risk即 当序列地学习不同输入模式的示例时早期的一些工作观察到catastrophic interference问题。大家已经探索了几个方向例如减少表示的重叠、重放过去的样本或虚拟样本、或引入dual architectures。由于资源限制这些工作主要考虑很少的示例数十的数量级并且是基于特定的浅层架构。随着神经网络的兴起continual learning 和 catastrophic forgetting也受到了更多关注。对两个连续任务人们已经研究dropout和不同激活函数对forgetting的影响并且有几篇论文从理论的角度研究了incremental task learning。 最近工作已经关注更长的任务序列和大量的示例下的continual learning问题。作者根据序列学习过程中如何存储和使用任务特定信息分成三个类 重放方法以原始格式存储样本或使用生成模型生成伪样本。在学习新任务减轻遗忘的同时重放先前的任务样本。 基于正则化的方法避免存储原始的输入优先考虑隐私和减轻内存需求。在损失函数中引入了一个额外的正则化项在学习新数据时巩固先前的知识。这些方法进一步可分为聚焦数据的方法和聚焦先验的方法。 参数孤立方法为每个任务分配了不同的模型参数防止任何可能的遗忘。当没有限制适用于体系结构大小时可以为新任务增加新的分支同时冻结先前任务参数或该家族为每个任务分配了不同的模型参数以防止任何可能的遗忘。当没有限制适用于体系结构大小时可以为新任务增加新的分支同时冻结先前的任务参数或每个任务指定一个模型复制。 如图给出的是三类方法的概述 continual hyperparameters framework 解决continual learning问题通常涉及额外的hyperparameters以平衡stability-plasticity权衡。许多情况下这些hyperparameters是利用在所有任务上保留的validation data并通过grid search找到。但是这违反了continual learning的主要假设即无法访问先前任务的数据。它可能会导致在真正的continual learning中无法重现的过度乐观结果。作者在不违反continual learning设置的情况下建立一个原则性的框架来设置hyperparameters。除了与现有方法比较该通用策略还动态地确定了stability-plasticity的折衷因此扩展至现实中的continual learners。 该框架包括两个主要模态Maximal Plasticity Search和Stability Decay其算法伪代码如图所示。 重放方法 iCaRL是第一个重放方法聚焦于类递增方式的学习。 GEM利用示例来解决约束优化问题由先前的任务梯度概述将当前任务梯度投影在可行的区域中。 正则化方法 Learning without Forgetting (LwF)通过知识蒸馏保留以前任务的知识。 Encoder Based Lifelong Learning (EBLL)推广LwF保持以前任务的低维重要特征表示。 Elastic Weight Consolidation (EWC)在贝叶斯框架引入不确定性。 Synaptic Intelligence (SI) 打破了训练后在一个单独阶段确定新任务重要性权重的EWC方式。 Memory Aware Synapses (MAS)重新定义参数重要性测度为无监督设置。 Incremental Moment Matching (IMM)估计任务参数的高斯后验与EWC相同不同的是模型合并的使用上。 参数孤立方法 PackNet通过构造二进制掩码将参数子集迭代地分配给连续任务。为此新任务建立了两个训练阶段。允许显式分配每个任务的网络容量固有地限制了任务总数。 HAT仅需要一个训练阶段为attention masking采用任务特定嵌入方式。 关于image classification实验的数据集特性如下表所示 采用的模型如下表 方法的比较采用多个Baseline 1微调先前的任务模型开始优化当前任务参数。该baseline贪婪地训练每个任务而不考虑先前的任务性能因此带来catastrophic forgetting是代表最低的性能。 2联合训练其中同时考虑任务序列中的所有数据这违反了continual learning的设置在报告的结果中附加“ *”表示。该baseline提供了参考性能。 对于replay方法另外增加两个微调baseline即 3带有全内存R-FM的基本rehearsal充分利用了整个可用的示例内存R将等容量递增地分配给所有先前的任务。这是一个定义内存管理策略以利用所有内存资源例如iCaRL的重放方法基准。 4使用部分内存R-PM的基本rehearsal为所有任务预先分配固定的示例内存R / T前提是事先知道任务量T。这是一个缺少内存管理策略的重放方法例如GEM所采用的基准。 重放缓存 重放方法GEMiCaRL和相应的baselinesR-PMR-FM可以使用任意重放缓存大小进行配置。太大的缓冲区将导致与正则化方法和参数孤立方法的比较不公平甚至可能保存了先前任务的所有数据如joint learning那样这不符合continual learning设置。因此作者用存储基准模型所需的内存作为示例量的基本参考这对应于prior-focused方法EWCSIMAS中重要性权重传播所需的附加内存。对于Tiny Imagenet数据集它已经是4500个示例的总重放缓存量。作者还用9000个示例的缓存量进行实验以次检查增加缓存量的影响。 学习细节 在训练期间模型优化采用momentum为0.9的STG。训练70个epoch除非early stopping。标准的AlexNet针对iNaturalist数据和RecogSeq配置dropout。对Tiny Imagenet数据默认情况下不使用任何形式的正则化。仅在forgetting-related的hyperparameters情况下才用那个continual hyperparameters framework。 如图给出在Tiny Imagenet数据集各种continual learning方法的结果比较 关于网络容量的影响见下表 关于正则化的影响见下表 真实环境设置在数据集RecogSeq的影响见下图 任务的次序在数据集iNaturalist的影响见下图 质量比较如下 实验总结如下 一般continual learning的设置应该包括 Constant memory. No task boundaries. Online learning. Forward transfer. Backward transfer. Problem agnostic. Adaptive. No test time oracle. Task revisiting. Graceful forgetting. 和continual learning相关的机器学习领域如图所示包括 Multi Task Learning Transfer Learning Domain Adaptationpart of Transfer Learning Learning to Learn (Meta Learning) Online Learningi.i.d data Open World Learningsubset of continual learning。 Three 第三篇是“Class-incremental learning: survey and performance evaluation“2020年10月28日发表 incremental learning即递增学习 是可取的1它避免新数据来时retrain from scratch的需要是有效地利用资源2它防止或限制需要存储的数据量来减少内存用量这一点在隐私限制时也很重要3它更接近人类的学习。 递增学习通常也称为continual learning或lifelong learning其主要挑战是catastrophic forgetting即灾难遗忘指学习新任务后先前学习任务的性能急剧下降。近年来对深度神经网络的递增学习取得了爆炸性的增长。最初的工作集中于task incremental learning推断时需要提供task-ID。最近我们看到了向class-incremental learning的转变learner在推理时必须对先前任务中看到的所有类进行分类而不求助于task-ID。 该文对现有的递增学习方法进行了全面调查尤其是对12种类递增方法进行了广泛的实验评估。作者考虑了几种实验方案包括对多个大型数据集的类递增方法进行比较、对小型和大型domain shifts进行调查以及比较各种网络体系的结构等。 在大多数递增学习IL场景中任务是按照一系列划定的训练课程training sessions呈现给学习者在此期间只有单任务数据可用于学习。完成每次训练课程之后学习者应该能够对未见的数据执行所有见过的任务。这种学习模型的生物启发是因为它反映了人类如何获取和整合新知识当面临要学习的新任务时我们会利用以前的知识并将新学习的知识整合到以前的任务中。 与此形成鲜明对比的有监督学习所有任务的标记数据在深层网络的一次训练中可以一起使用。递增学习者一次只能访问单个任务的数据只能对所有到目前已经学习的任务进行评估。递增学习的主要挑战是从当前任务的数据中学习同时防止忘记先前学习的任务。微调方法有效地应用于domain transfer问题但却因为以前任务缺少数据导致分类器无法完成分类即灾难性遗忘问题。递增学习旨在防止灾难性遗忘同时避免不妥协intransigence 问题因为它会阻碍新任务的适应并忘记先前学习的任务。 另外递增学习器比监督学习更好地优化计算资源。在监督学习方法中当新任务出现最好的通常是唯一的选择是联合训练所有先前任务和这个新任务。但是由于隐私考虑在许多情况下先前任务的数据可能不可用。 在递增学习中训练分为一系列任务并且任何训练的学习者只能访问当前任务的数据可选地某些方法可以考虑少量来自先前任务的存储数据。大多数早期的递增学习方法都考虑了任务递增学习task-IL算法可以在推理时访问task-ID。这样的方法不必区分来自不同任务的类。最近已经开始考虑类递增学习class-IL即学习者在推理时无法访问task-ID因此必须能够区分所有任务的所有类。 该综述把这些方法分成三类1基于正则化的解决方案旨在最大程度地减少学习新任务对先前任务重要权重的影响2基于示例的解决方案存储有限的示例集以防止对先前任务的遗忘3直接解决task-recency bias的解决方案在类递增学习方法中这是指对最近学习的任务偏差。 普通class-incremental learning的设置incremental learning问题包括一系列任务即 其中类C数据D任务t。而incremental learner是深度网络参数 θo(x) h(x; θ)是输出。根据下面输出将一个神经网络分离成特征提取器f和分类器g 网络预测 直到当前任务的所有类cross-entropy损失定义为 而属于当前任务的类cross-entropy损失定义为 在概念上有效类递增学习的基本阻碍不复杂但在实践中却很难克服。挑战来自任务的串行训练还有就是在任何时候学习者必须对所有先前学习任务中的所有类别进行分类。递增学习方法必须在保留先前任务的知识与学习当前任务的新知识之间取得平衡即著名的稳定性-可塑性难题stability-plasticity dilemma。为防止灾难性遗忘导致类递增学习的第二个重要问题即前面提到的不妥协intransigence。 类递增学习者发生灾难性遗忘的原因有以下几种 权重漂移Weight drift在学习新任务时将更新与旧任务相关的网络权重以最大程度地减少新任务的损失。但是先前任务的性能会受到损害通常会非常严重。 激励漂移Activation drift与权重漂移密切相关改变权重会导致激活变化进而导致网络输出变化。 任务间混淆Inter-task confusion在类递增学习目标是将所有类与所有任务区分开。但是由于永远不会共同训练类网络权重无法最优区分所有类。 任务出现偏差Task-recency bias单独学习的任务可能具有无可比拟的分类器输出。通常最主要的任务偏差是针对较新的任务类confusion matrices可以清楚地观察到这种效果。 下面是考虑的类递增学习方法分类 1增量式方法从非平稳分布中提取的数据流进行训练。 2任务可转移方法类递增学习者能够利用先前类的知识来改进新类的学习前向迁移并利用新数据来提高先前任务的性能后向迁移。 3任务不可知Task-agnostic方法递增学习者能够以任务不可知的方式从所有先前学习的任务中预测类。 4离线方法在训练课程中呈现满足i.i.d数据可以在下一个任务之前进行多次处理。 5固定网络体系结构方法对所有任务使用固定体系结构无需为新任务体系结构增加大量参数。 6Tabula rasa方法递增学习者从头开始训练不需在大标注数据集做预训练。 7Mature方法适用于复杂图像分类问题。 8无范例方法不需要存储先前任务的图像数据保护隐私可选。 解决前面灾难性遗忘这种挑战的方法分为三种 regularization based methods rehearsal-based methods bias-correction methods 正则化方法分为权重正则化如Elastic Weight Consolidation(EWC)、Path Integral approach (PathInt)、Riemanian Walk (RWalk)和Memory Aware Synapses (MAS)、数据正则化如Learning without Forgetting (LwF)、还有Learning without Memorizing (LwM)和Domain Model Consolidation (DMC)等。 排练方法分为Incremental Classifier and Representation Learning (iCaRL)、内存、采样、任务平衡、排练和正则化组合。 偏差矫正方法分为Bias Correction (BiC)、End-to-End Incremental Learning (EEIL)Learning a Unified Classifier Incrementally via Rebalancing (LUCIR)Class-IL with dual memory (IL2M)。 如图是各种方法的关系 实验的数据集如下表 Baselines的精度如下表 正则化方法比较如下表 采样策略的比较 网络架构的比较 目前类递增学习新兴的趋势 Exemplar learning 对样本进行参数设置并优化以防止遗忘。 Feature rehearsal 执行特征重放而不是图像重放其中训练一个生成器在网络某个隐藏层生成特征。这样不想pseudo rehearsal那样排练方法也可以应用于复杂的数据集。 Explicit task classification 在每个任务上学习一个classifier head其只能区分任务内的类而另一个分类器则预测task label。尚不清楚为什么以及什么时候显式任务分类优于一个联合分类器的学习。 Self- and unsupervised incremental learning 有一种方法可以执行明确的任务分类并采用高斯混合模型拟合学习的表示。 Meta-learning 在解决相关任务时积累的信息用来学习新任务。这种方法可以学习那些能减少未来梯度干扰并基于此改善传递的参数。 作者最后得到的一些结论 比较无样本方法LwF获得最佳结果。其他正则化方法与权重正则化EWC和MAS相比数据正则化LwM获得了更好的结果。无样本方法目前无法与样本排练方法竞争并且由于操作环境原因将它们分开进行比较。 LwF与样本组合时结果表明增加的正则化不能改善结果示例微调的baseline方法效果更好。但是使用LwM数据正则化确实比baseline性能更好。 在几种情况下权重正则化明显优于baseline的FT-E这表明应该重新考虑使用LwF进行数据正则化而不是权重正则化。 对于较大的任务序列Herding是一种比随机抽样更鲁棒的样本采样方法但对于短序列它并不优于其他方法。 明确解决task-recency bias的方法可以获得更好的性能。 当前方法主要在具有小domain shifts的数据集给出结果。对大domain shifts没有一种方法会明显优于baselineFT-E。对于任务递增学习已经考虑了大domain shifts但结果表明仍然需要新的技术才能在类递增学习设置中获得令人满意的结果。 大多数类递增学习方法对体系结构敏感并且排名根据所使用的网络而变化。 本文转载自公众号“夕小瑶的卖萌屋”专业带逛互联网算法圈的神操作 -----》我是传送门 关注后回复以下口令 回复【789】 领取深度学习全栈手册含NLP、CV海量综述、必刷论文解读 回复【入群】加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群大V、顶会审稿人云集 回复【0511】领取算法岗面试手册刷offer神器 回复【0424】领取刷论文神器挖掘每日、每月必刷重磅论文 后台回复关键词【入群】 加入卖萌屋NLP/IR/Rec与求职讨论群 后台回复关键词【顶会】 获取ACL、CIKM等各大顶会论文集