用python实现文本转语音，语音转文字、语音对话

请问如何制作一个如图所示能实现完成文本转语音，语音转文字、语音对话功能的产物？应该从什么方向开始学习？有相关网课推荐吗

tts听说过吗？这个就是文本转语音，语音转文字叫语音识别。
微软，百度，还有讯飞都有不错的解决方案。具体教程先看看官方API再说吧。
至于语音对话，难度有点高，不过也就是在这前面两个中间加上语义分析和对答方案即可。
再难也有人做！因为未来需要它！

文本转语音：ASR，可以看下百度的Deepspeech的paper论文，也有开源的代码，看明白了声学前端处理，mfcc，声码器，模型结构，ctc这些基本就能明白个框。
语音转文本：可以先看下wavenet，wavernn这些paper论文，都有开源的代码，本质上的基础知识和ASR的差不多，就是倒过来。
语音对话：则是需要学习nlp，对embedding词向量，字向量有理解，并且最好可以理解下bert的paper，也有开源代码，然后对话一般业内都是意图理解，也就是归类后触发下一节点任务。