1.Title
AN ATTENTION-BASED BACKEND ALLOWING EFFICIENT FINE-TUNING OF TRANSFORMER MODELS FOR SPEAKER VERIFICATION
2.Summary
本篇文章我没有读完,原因是觉得后续工作对我来说没有太大的帮助。本文主要讲的是利用预训练模型来提取声纹特征,在加以微调来改善模型。其实从微调可以看出,重点还是在前面,即基于强大的预训练模型来进行下游任务。这里提到了transformer,该模型自2017年提出以来一直火到了现在,足以见得其强大之处。也正是因为读到这篇论文,让我想再去研究研究transformer,因为之前只是大概了解了一下,并没有系统学习记录下来。
3.Research Objective
在自监督学习中预先训练好的模型用于说话人验证任务的微调策略尚未充分探索。
4.Method(s)
在本文中,作者分析了几种建立在预先训练模型之上的特征提取方法(发现预训练模型的较低层对说话人验证更有效,而顶层则侧重于语音信息)、正则化和学习速率调度器,以稳定微调过程并进一步提高性能。
通过与一些分类器、特征提取器进行联合微调可以进一步提高性能,但是这样做会导致大规模的后端以及模型的过拟合,使训练变得相当麻烦(涉及到时间以及处理过拟合等问题)
因此有人提出了一种两阶段的微调策略:就是首先冻结预先训练好的参数,重新开始优化随机初始化的特征提取器后端,然后联合训练两个模型,这能够使训练更加的稳定。最后也能在VoxCeleb数据集上得到不错的效果。但是这样的方法同样也存在弊端,那就是它的计算成本很高,它需要预训练模型多次迭代来初始化后端,然后才能通过联合训练的方式最大限度发挥该体系的能力。
于是作者通过引入一个轻量级后端并设计适当的微调策略,研究了如何在说话人确认任务中最大限度地发挥预处理模型的能力。该后端完全基于注意力,不包含卷积层且每个帧的时间位置仅通过每个Transformer模型的固有机制进行编码(例如位置嵌入)
5.Evaluation
后续可以考虑使用transformer作为特征提取器,虽然目前这种做法好像还是挺多的,算不上创新,不过效果应该会好一点。可以在基于这个的基础上加以改造试试。
6.Conclusion
验证了transformer在提取说话人特征方面的强大能力。
7.Notes
7.1 预训练
在这里看到一句话很好的解释了预训练的概念:预训练就是使用大量的数据,从中提取出该类数据的共性特征,从而减轻后续模型对特定任务的的学习负担。
预训练的本质
- 模型参数不再是随机初始化,而是通过一些任务进行预训练
- 将整体训练拆分为共性学习和特性学习两个阶段
上述两句话分别从模型和数据的角度解释了预训练的本质。举一个通俗的例子,若要让一个人去学习概率论。与一个文科生相比,显然是让一个学习过高等数学和线性代数的工科生学习概率论更为容易,而学习过的高等数学和线性代数对应到这里就是预训练的结果。平常我们也是采用一些优秀的预训练模型再加以微调,从而在我们自己特定的任务上得到较好的效果。
7.2 Transformer
transformer这个模型值得单开一篇,这里附上链接:传送门
7.3 下采样
文中有提到下采样这个概念,经过查询,发现与之对应的还有上采样。
用到采样的目的其实是为了均衡数据,下采样是将多的数据减少,而上采样是将少的数据增加。看资料介绍大多数时候是针对特征进行上下采样,例如我们常说的池化层有时候也称为下采样层。