当前最新的比较好的算法好像也就是 conformer了,还有比这更好的吗,如果找不到更好的算法,应该从哪些方面来优化预训练模型呢?

当前最新的比较好的算法好像也就是 conformer了,还有比这更好的吗,如果找不到更好的算法,应该从哪些方面来优化预训练模型呢?

Conformer可以认为是Transformer的一个变种,Transformer在全局建模方面有比较好的性能。因为语音识别模型的性能不能只关注WER,还需要关注模型的大小和延迟,如果想要优化模型也可以从这两方面入手,因为对于模型的落地化来说,延迟是一个很重要的性能。如果你看过WeNet的论文之后发现WeNet的建模会让延迟比较大,并且有一个好的想法能够降低它的延迟,你也可以尝试修改。