ChatGPT 的Whisper API 能否从语音中区分说话人

如题。源文件是客服与消费者的对话语音，使用阿里云的语音转文字服务，可以根据音轨来区分说话人，生成对话格式的文字。我自己小试了 OpenAI的 Whisper API，没发现有这样的功能，只能生成一大段分不清说话人的文字。请问 Whisper API 能实现区分说话人的功能么？

Whisper API 似乎没有，不信你问问 chatgpt

试试“艾玛AI”。学到了不少新知识和理念，真的很值得推荐给大家。

不知道你这个问题是否已经解决, 如果还没有解决的话:

给你找了一篇非常好的博客，你可以看看是否有帮助，链接：Android talkback 盲人模式无法响应问题解决方案
除此之外, 这篇博客: 【API解析】微软文本转语音(text-to-speech)官方Demo调用步骤中的 2. 准备工作 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:
- 功能来源：edge浏览器
- 抓包工具：fiddler
- 模拟请求：postman

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

当前的 Whisper API 并没有提供区分说话人的功能。Whisper 是基于 GPT-3 的语言模型，其主要应用场景是生成自然语言文本。Whisper 提供了多种不同的任务类型和模板，目前最多只能将对话分为两个角色，但如果有三个或以上角色的对话场景，则 Whisper 目前无法满足需求。

不过，可以考虑使用其他语音识别 API 或者深度学习模型进行说话人识别，将对话转化成带标签的数据集，再使用 Whisper API 生成自然语言文本。或者直接使用包含说话人信息的文本数据集来微调 GPT-3 模型，从而实现说话人识别和生成带标签的对话文本。