【侨报讯】微软4月2日正式发布三款自研AI模型,分别覆盖语音转写、语音生成和图像生成领域,显示这家科技巨头正加速拓展OpenAI合作之外的自主AI能力布局,以在与谷歌、亚马逊等竞争对手的较量中掌握更多主动权。
![]()
此次发布的三款模型包括语音转文字模型MAI-Transcribe-1、语音生成模型MAI-Voice-1,以及图像生成模型MAI-Image-2。其中,MAI-Transcribe-1被微软称为目前市场上准确率最高的语音识别模型之一,尤其适用于呼叫中心、会议室等真实环境中的复杂和高噪音场景。微软表示,该模型在FLEURS基准测试中的价格性能比具有明显优势,可直接对标OpenAI的Whisper以及谷歌Gemini系列。
微软AI首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)表示,新模型不仅具备“行业领先的准确率”,同时运行速度“快如闪电”,其GPU成本仅为其他同级先进模型的一半。这一成本优势也被视为微软未来推动企业级AI大规模落地的重要基础。
除转录模型外,MAI-Voice-1现已支持开发者通过短音频样本快速生成定制声音,进一步拓宽企业在客服、数字人及内容制作等领域的应用空间。MAI-Image-2则在多个图像生成评测榜单中位列前三,目前已开始接入Bing和PowerPoint等微软核心产品。
这是微软自今年3月AI业务重组后的首次重大模型发布。微软首席执行官萨提亚·纳德拉(Satya Nadella)此前调整组织架构后,苏莱曼已逐步淡出Copilot日常运营,将工作重心转向前沿模型研发和“超级智能”战略。外界普遍认为,这意味着微软正为未来完全独立的大模型体系提前铺路。
目前,上述三款模型已全面上线微软Foundry开发者平台及MAI Playground,面向开发者和企业客户开放商用。