亚马逊推出可感知情感的AI语音模型 Nova Sonic-美西在线

首页>西雅图

亚马逊推出可感知情感的AI语音模型 Nova Sonic

时间: 1744242150302

【侨报讯】当人工智能感知到你声音中的挫折或喜悦时，会发生什么？亚马逊新推出的语音交互AI模型Nova Sonic给出了答案。这款模型将语音识别与生成统一为一体，旨在提供更自然的语音交互体验，是亚马逊在开发类人智能领域与谷歌、OpenAI等竞争对手抗衡的重要一步。

亚马逊首席执行官安迪-贾西（AndyJassy）去年底曾在拉斯维加斯AWS大会上发布了亚马逊的Nova计划。（图片来源：GeekWire）

据亚马逊介绍，Nova Sonic能够捕捉用户语音中的语气，并根据用户的风格和情感进行适应性调整。例如，当一位愤怒的客户拨打客服电话时，Nova Sonic会以平静、稳定的语气回应；而当用户表现出对某事（如夏威夷旅行）的兴奋时，它会以更欢快的语气回应，甚至可能分享这种兴奋。亚马逊人工智能通用（AGI）高级副总裁罗希特·普拉萨德（Rohit Prasad）表示：“我认为智能与语境密不可分。如果用户对夏威夷感到兴奋，Nova Sonic也会随之兴奋；如果用户兴趣不高，它会建议其他目的地。”

Nova Sonic通过亚马逊的Bedrock服务向第三方开发者开放，目前已部分应用于其最新发布的Alexa+语音助手。与传统的语音系统不同，传统系统需要将语音识别、语言处理和文本转语音等多个模型拼接在一起，而Nova Sonic采用单一架构整合了所有功能。这种设计使它能够保留对话的完整语境——包括语调、节奏和意图——让交互更加流畅自然。它还能在对话中实时采取行动，例如查询航班信息或账户状态，而不中断交流流程。

亚马逊通过新的流式API推出Nova Sonic，专为实时语音应用设计。目前它支持英语，提供多种语音和口音选择，并计划扩展至更多语言。测试显示，Nova Sonic在速度和成本上优于竞争对手，平均响应时间略超1秒，比OpenAI的GPT-4o和谷歌的Gemini Flash2.0更快，且使用成本比GPT-4o低近80%。

普拉萨德强调，Nova Sonic是迈向AGI的重要一步，目标是打造能处理任何输入并以最自然方式响应的统一模型。他表示：“这是在融合人类与机器的能力，因此至关重要。”目前，ASAPP、教育第一（Education First）和Stats Perform等公司正在测试Nova Sonic，用于客服电话、语言学习工具和实时体育数据播报等场景。该模型还能与企业系统集成，实时获取价格、库存等信息，并在对话中执行预订等任务。

作为亚马逊Nova系列AI模型的最新成员，Nova Sonic延续了该公司在文本、图像和视频生成与理解方面的创新，标志着其在语音AI领域的雄心勃勃布局。

网友评论

10 条评论

所有评论

显示更多评论