ChatGPT 的Whisper API 能否从语音中区分说话人

如题。源文件是客服与消费者的对话语音,使用阿里云的语音转文字服务,可以根据音轨来区分说话人,生成对话格式的文字。我自己小试了 OpenAI的 Whisper API,没发现有这样的功能,只能生成一大段分不清说话人的文字。请问 Whisper API 能实现区分说话人的功能么?

Whisper API 似乎没有,不信你问问 chatgpt

试试“艾玛AI”。学到了不少新知识和理念,真的很值得推荐给大家。

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

当前的 Whisper API 并没有提供区分说话人的功能。Whisper 是基于 GPT-3 的语言模型,其主要应用场景是生成自然语言文本。Whisper 提供了多种不同的任务类型和模板,目前最多只能将对话分为两个角色,但如果有三个或以上角色的对话场景,则 Whisper 目前无法满足需求。

不过,可以考虑使用其他语音识别 API 或者深度学习模型进行说话人识别,将对话转化成带标签的数据集,再使用 Whisper API 生成自然语言文本。或者直接使用包含说话人信息的文本数据集来微调 GPT-3 模型,从而实现说话人识别和生成带标签的对话文本。