【侨报讯】当人工智能感知到你声音中的挫折或喜悦时,会发生什么?亚马逊新推出的语音交互AI模型Nova Sonic给出了答案。这款模型将语音识别与生成统一为一体,旨在提供更自然的语音交互体验,是亚马逊在开发类人智能领域与谷歌、OpenAI等竞争对手抗衡的重要一步。

亚马逊首席执行官安迪-贾西(AndyJassy)去年底曾在拉斯维加斯AWS大会上发布了亚马逊的Nova计划。(图片来源:GeekWire)

据亚马逊介绍,Nova Sonic能够捕捉用户语音中的语气,并根据用户的风格和情感进行适应性调整。例如,当一位愤怒的客户拨打客服电话时,Nova Sonic会以平静、稳定的语气回应;而当用户表现出对某事(如夏威夷旅行)的兴奋时,它会以更欢快的语气回应,甚至可能分享这种兴奋。亚马逊人工智能通用(AGI)高级副总裁罗希特·普拉萨德(Rohit Prasad)表示:“我认为智能与语境密不可分。如果用户对夏威夷感到兴奋,Nova Sonic也会随之兴奋;如果用户兴趣不高,它会建议其他目的地。”

Nova Sonic通过亚马逊的Bedrock服务向第三方开发者开放,目前已部分应用于其最新发布的Alexa+语音助手。与传统的语音系统不同,传统系统需要将语音识别、语言处理和文本转语音等多个模型拼接在一起,而Nova Sonic采用单一架构整合了所有功能。这种设计使它能够保留对话的完整语境——包括语调、节奏和意图——让交互更加流畅自然。它还能在对话中实时采取行动,例如查询航班信息或账户状态,而不中断交流流程。

亚马逊通过新的流式API推出Nova Sonic,专为实时语音应用设计。目前它支持英语,提供多种语音和口音选择,并计划扩展至更多语言。测试显示,Nova Sonic在速度和成本上优于竞争对手,平均响应时间略超1秒,比OpenAI的GPT-4o和谷歌的Gemini Flash2.0更快,且使用成本比GPT-4o低近80%。

普拉萨德强调,Nova Sonic是迈向AGI的重要一步,目标是打造能处理任何输入并以最自然方式响应的统一模型。他表示:“这是在融合人类与机器的能力,因此至关重要。”目前,ASAPP、教育第一(Education First)和Stats Perform等公司正在测试Nova Sonic,用于客服电话、语言学习工具和实时体育数据播报等场景。该模型还能与企业系统集成,实时获取价格、库存等信息,并在对话中执行预订等任务。

作为亚马逊Nova系列AI模型的最新成员,Nova Sonic延续了该公司在文本、图像和视频生成与理解方面的创新,标志着其在语音AI领域的雄心勃勃布局。