有监督学损失的代码以及原理什么的有没有指路呀,看了好几篇弄进去loss都是nan
每新来一个增量任务t,就新训练一个特征提取网络Ft
和分类器Hta
,然后并入上一个特征提取网络中作为新的特征提取网络。其中,Mask Parameter即前文提及的Channel-Level Mask-Based Pruning Strategy,对特征进行采样,从而降低特征维度,减少存储和运算负担。
训练loss即交叉熵,用于对整个分类器进行训练(这里的分类器Ht相当于原始分类器Ht
和新增分类器Hta
的合并),其中D
是训练样本与memory中样本的并集。
除此自外,作者引入了LHta辅助loss,只对分类器的新增部分Hta
进行训练,