北京时间3月21日凌晨,OpenAI宣布推出新一代语音转录和语音生成AI模型,声称在精度和操控性上相比此前的版本有显著改进。这一举措符合OpenAI的“智能代理(agent)”愿景,即构建能够独立完成用户任务的自动化系统。尽管对“代理”的定义尚存争议,但OpenAI产品负责人Olivier Godement将其描述为一种能与企业客户进行对话的聊天机器人。
Godement表示,未来几个月将会有更多的智能代理系统出现。他指出,OpenAI的目标是帮助客户和开发者利用这些智能代理,实现更有用、可用且准确的互动体验。OpenAI推出的这些新模型被认为是其推动该愿景的重要一步。
更具个性化的语音生成模型OpenAI此次推出的新语音生成模型“gpt-4o-mini-tts”,在语音生成的自然性和细腻程度上有了明显提升。与以往的语音合成模型相比,该模型在语调和情感表达上具有更高的“可操控性”。开发者可以通过自然语言指示模型如何表达,例如“像疯狂科学家一样说话”或“用冥想导师般的平静语气说话”,这使得语音生成体验更具个性化。产品团队成员Jeff Harris表示,开发这个模型的目的是让开发者能够更好地定制语音的“体验”和“语境”。例如,在客户支持的场景中,企业可能需要语音表现出道歉的情感,以应对错误。Harris解释道:“我们的核心理念是,开发者和用户不仅希望控制说话内容,还希望控制说话的方式。”除了语音生成,OpenAI还推出了新一代语音转录模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,这些模型取代了此前备受诟病的Whisper模型。
OpenAI声称,新的语音转录模型通过对高质量、多样化的音频数据集进行训练,能够更好地处理带有口音的复杂语音,即使是在嘈杂环境中也能捕捉到更多细节。Whisper模型以其容易出现的“幻觉”问题而闻名,这种现象会导致转录过程中生成虚构的内容,例如种族评论或虚构的医疗治疗方案。Harris指出,新的语音转录模型大幅减少了类似问题的发生,能够提供更为准确的语音转录体验。他强调,确保模型的精确性对于获得可靠的语音体验至关重要。
语音转录在不同语言下的表现差异然而,OpenAI也承认,语音转录的准确性在不同语言环境下表现各异。根据其内部的基准测试数据,新模型“gpt-4o-transcribe”在印度和达罗毗荼语系(如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语)中的“词错误率”接近30%(满分为120%)。这意味着在这些语言的语音转录中,每10个单词中有3个与人类转录结果存在差异。这种表现差异引发了对模型在多语言环境中的适应能力的进一步讨论。虽然在一些主流语言中,转录模型的表现非常出色,但对于带有复杂口音或语言变体的用户来说,模型的准确性仍有待提高。与以往不同,OpenAI并不计划对新语音转录模型开放源代码。此前,Whisper模型是以MIT许可证发布的,允许开发者自由使用。然而,Harris解释说,新的转录模型“比Whisper大得多”,因此不适合公开发布。他指出,这些模型不适合在本地设备上运行,OpenAI希望谨慎对待开放源代码的发布,确保模型的专用性。Harris补充道:“我们认为,终端用户设备是开源模型最有趣的应用场景之一。”这一立场表明,尽管OpenAI在语音技术上的进步显著,但其在商业化和开放性之间做出了明确的区分。

Godement表示,未来几个月将会有更多的智能代理系统出现。他指出,OpenAI的目标是帮助客户和开发者利用这些智能代理,实现更有用、可用且准确的互动体验。OpenAI推出的这些新模型被认为是其推动该愿景的重要一步。
更具个性化的语音生成模型OpenAI此次推出的新语音生成模型“gpt-4o-mini-tts”,在语音生成的自然性和细腻程度上有了明显提升。与以往的语音合成模型相比,该模型在语调和情感表达上具有更高的“可操控性”。开发者可以通过自然语言指示模型如何表达,例如“像疯狂科学家一样说话”或“用冥想导师般的平静语气说话”,这使得语音生成体验更具个性化。产品团队成员Jeff Harris表示,开发这个模型的目的是让开发者能够更好地定制语音的“体验”和“语境”。例如,在客户支持的场景中,企业可能需要语音表现出道歉的情感,以应对错误。Harris解释道:“我们的核心理念是,开发者和用户不仅希望控制说话内容,还希望控制说话的方式。”除了语音生成,OpenAI还推出了新一代语音转录模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,这些模型取代了此前备受诟病的Whisper模型。
OpenAI声称,新的语音转录模型通过对高质量、多样化的音频数据集进行训练,能够更好地处理带有口音的复杂语音,即使是在嘈杂环境中也能捕捉到更多细节。Whisper模型以其容易出现的“幻觉”问题而闻名,这种现象会导致转录过程中生成虚构的内容,例如种族评论或虚构的医疗治疗方案。Harris指出,新的语音转录模型大幅减少了类似问题的发生,能够提供更为准确的语音转录体验。他强调,确保模型的精确性对于获得可靠的语音体验至关重要。
语音转录在不同语言下的表现差异然而,OpenAI也承认,语音转录的准确性在不同语言环境下表现各异。根据其内部的基准测试数据,新模型“gpt-4o-transcribe”在印度和达罗毗荼语系(如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语)中的“词错误率”接近30%(满分为120%)。这意味着在这些语言的语音转录中,每10个单词中有3个与人类转录结果存在差异。这种表现差异引发了对模型在多语言环境中的适应能力的进一步讨论。虽然在一些主流语言中,转录模型的表现非常出色,但对于带有复杂口音或语言变体的用户来说,模型的准确性仍有待提高。与以往不同,OpenAI并不计划对新语音转录模型开放源代码。此前,Whisper模型是以MIT许可证发布的,允许开发者自由使用。然而,Harris解释说,新的转录模型“比Whisper大得多”,因此不适合公开发布。他指出,这些模型不适合在本地设备上运行,OpenAI希望谨慎对待开放源代码的发布,确保模型的专用性。Harris补充道:“我们认为,终端用户设备是开源模型最有趣的应用场景之一。”这一立场表明,尽管OpenAI在语音技术上的进步显著,但其在商业化和开放性之间做出了明确的区分。
