用python实现文本转语音,语音转文字、语音对话

img


请问如何制作一个如图所示能实现完成文本转语音,语音转文字、语音对话功能的产物?应该从什么方向开始学习?有相关网课推荐吗

tts听说过吗?这个就是文本转语音,语音转文字叫语音识别。
微软,百度,还有讯飞都有不错的解决方案。具体教程先看看官方API再说吧。
至于语音对话,难度有点高,不过也就是在这前面两个中间加上语义分析和对答方案即可。
再难也有人做!因为未来需要它!

文本转语音:ASR,可以看下百度的Deepspeech的paper论文,也有开源的代码,看明白了声学前端处理,mfcc,声码器,模型结构,ctc这些基本就能明白个框。
语音转文本:可以先看下wavenet,wavernn这些paper论文,都有开源的代码,本质上的基础知识和ASR的差不多,就是倒过来。
语音对话:则是需要学习nlp,对embedding词向量,字向量有理解,并且最好可以理解下bert的paper,也有开源代码,然后对话一般业内都是意图理解,也就是归类后触发下一节点任务。