程序员开发实例大全宝库

网站首页 > 编程文章 正文

neurips 2024|遗忘无知还是短视:在线持续学习的关键挑战

zazugpt 2025-03-24 22:27:18 编程文章 28 ℃ 0 评论

研究背景

在线持续学习(Online Continual Learning, OCL)是一种机器学习范式,要求模型能够从不断到来的数据流中持续学习。然而,现有的OCL方法主要关注于缓解灾难性遗忘问题,即通过减少新任务对旧知识的影响来提升模型的分类能力,但这种方法往往以增加训练工作量为代价。此外,这些方法往往忽视了模型吞吐量这一关键指标,即模型在单位时间内能够处理的最大训练样本数,这在处理高速数据流时尤为重要。

研究意义

本研究重新评估了OCL中的关键挑战,并指出了两个超越灾难性遗忘的重要问题:模型的无知和模型的近视。

模型的无知:指OCL的单次通过性质导致模型在有限的时间和存储能力内难以获取足够的判别性特征,从而在性能上受限。

模型的近视:指模型在当前任务上的局部学习性质使其过于简化,仅关注于当前任务的特征,导致分类器过于稀疏,无法有效应对未来任务,从而产生性能下降。

本研究通过提出一种新的框架——非稀疏分类器进化(Non-sparse Classifier Evolution, NsCE)来解决这些问题,旨在实现高效的全局判别特征学习,同时保持模型的吞吐量和实际应用的可行性。

具体方法

非稀疏正则化:

在模型的最后全连接层引入非稀疏正则化项,确保模型在训练过程中保持多样化的判别特征,避免过于关注少数高度判别性特征。


最大分离准则:

采用最大类分离准则,使来自不同类别的学习表示之间的余弦相似度满足理想单纯形等角紧框架(ETF),以增强模型对不同任务的泛化能力。



针对性经验回放:

在经验回放过程中,优先处理模型之前难以区分的类别,通过计算混淆矩阵来识别这些类别,并为它们设计单独的二元分类任务,以加速模型获取这些类别之间的判别能力。


预训练模型的利用:

通过预训练模型初始化,使模型能够快速适应新任务,同时减少训练时间,提高模型吞吐量。

通过这些方法,NsCE框架能够有效地缓解模型的无知和近视问题,提升模型在OCL场景下的性能、吞吐量和实用性。


图1:不同方法在单任务设置下的实时准确率

解释:此图展示了在不同数据集(CIFAR100、EuroSat)上,使用不同方法(如交叉熵损失、经验回放、蒸馏链等)训练在线持续学习(OCL)模型的实时准确率。图中横轴表示迭代次数,纵轴表示准确率。通过比较不同方法,可以观察到使用预训练模型初始化显著提高了模型的实时准确率,尤其是在数据流的开始阶段。此外,结合经验回放和蒸馏链等技术可以进一步提升模型性能,但增加了训练时间,降低了模型吞吐量。



图2:不同方法的模型吞吐量

解释:此图展示了使用不同方法(如交叉熵损失、经验回放、监督对比回放、蒸馏链等)训练OCL模型时的模型吞吐量。吞吐量定义为模型在单位时间内能够处理的训练样本数。图中横轴表示方法类型,左图纵轴表示吞吐量(单位:样本/秒),右图纵轴表示运行时间(单位:分钟)。从图中可以看出,虽然经验回放等技术可以提高模型准确率,但它们显著降低了模型吞吐量,增加了训练时间。


图3:NCM分类器和softmax分类器的归一化混淆矩阵

解释:此图展示了使用ImageNet预训练初始化的NCM分类器和softmax分类器在CIFAR10数据集上的归一化混淆矩阵。通过比较两个分类器的混淆矩阵,可以观察到softmax分类器更容易将过去任务中的类别误分类为当前任务的类别,这表致了性能下降。而NCM分类器在一定程度上缓解了这种问题。

图4:分类器参数的平均值和稀疏性

解释:此图展示了CIFAR10数据集中类0的最终全连接层参数的平均值和稀疏性随任务变化的情况。左图纵轴表示参数的平均值,右图纵轴表示稀疏性的倒数(1/s(w)),稀疏性定义为参数绝对值之和除以参数个数的最大值。从图中可以看出,随着新任务的引入,softmax分类器参数的平均值和稀疏性都逐渐降低,这表明模型越来越专注于当前任务的判别特征,增加了模型近视的风险。


图6:NsCE框架的敏感性和分类器稀疏性

解释:左图展示了NsCE框架中阈值τ对A AUC的影响,随着τ的增加,A AUC逐渐降低。右图展示了不同方法下分类器参数的稀疏性随任务变化的情况。从图中可以看出,提出的非稀疏正则化项Ls有效降低了分类器参数的稀疏性,从而缓解了模型近视的问题。




本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表