如何结合计算机视觉和自然语言处理还有3D建模,实现输入句子生成短视频 3D电影 3D模型?

实现了这个之后,就可以输入小说,直接生成3D电影,真的很能赚钱。
暂时想到的是建立文字,图片,3d模型词典。 文字和图片和3D模型一一对应上。
或者如今的自然语言处理和计算机视觉还有自动驾驶有什么更好的方法能实现这个功能吗?

给你道,要求能生成万物。