(资料图片)

今天,Meta 宣布了其最新的生成式 AI 模型,继ImageBind之后是 Voicebox,该模型旨在帮助创作者执行语音生成任务,例如音频编辑、采样和风格化,即使它不是专门的。通过情境学习接受训练来做到这一点。

Meta 宣称,这种新的人工智能模型将为世界各地的许多人带来好处,并举例说明,例如帮助视障人士用自己的声音听到朋友发出的书面信息,以及允许人们用自己的声音说外语。

人工智能模型本身可以生成高质量的音频剪辑,并编辑预先录制的音频以消除汽车喇叭等不必要的干扰,同时保留音频的内容和风格,同时支持多种语言,以六种语言生成语音。该模型的未来发展包括在元宇宙中的游戏过程中为视觉助手或非玩家角色提供自然的声音。

Meta 还将 Voicebox 与其他音频 AI 模型进行了比较,特别将 Vall-E 和 YourTTS 列为竞争对手,表明 Voicebox 更先进,并且在比较单词错误率和风格相似度时优于这两种模型。

推荐内容