当前最新的比较好的算法好像也就是 conformer了，还有比这更好的吗，如果找不到更好的算法，应该从哪些方面来优化预训练模型呢?

Conformer可以认为是Transformer的一个变种，Transformer在全局建模方面有比较好的性能。因为语音识别模型的性能不能只关注WER，还需要关注模型的大小和延迟，如果想要优化模型也可以从这两方面入手，因为对于模型的落地化来说，延迟是一个很重要的性能。如果你看过WeNet的论文之后发现WeNet的建模会让延迟比较大，并且有一个好的想法能够降低它的延迟，你也可以尝试修改。