现在语音识别落地比较难的点?

想问一下现在的语音识别在落地上比较难的点是什么?应该怎么解决呢?

目前来说,语音识别落地的难点有中英混、方言、预训练模型。
首先,中英混是一个语音识别落地的难点,现在有很多研究在做;其次,方言也是一个难点,这里面主要是数据的问题,像是低资源的模型的构建,就是在数据比较少的情景如何构建语音模型;其他的还有类似Wav2vec这种预训练训练模型,如果模型要做得比较大,如何去做实时的流式推理,这些都是目前研究的一些点,在最近也都有一些进展。