现在语音识别落地比较难的点？

想问一下现在的语音识别在落地上比较难的点是什么？应该怎么解决呢？

目前来说，语音识别落地的难点有中英混、方言、预训练模型。
首先，中英混是一个语音识别落地的难点，现在有很多研究在做；其次，方言也是一个难点，这里面主要是数据的问题，像是低资源的模型的构建，就是在数据比较少的情景如何构建语音模型；其他的还有类似Wav2vec这种预训练训练模型，如果模型要做得比较大，如何去做实时的流式推理，这些都是目前研究的一些点，在最近也都有一些进展。