首页 AI写作 正文

几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具AudioCraft

几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具AudioCraft

您可以用短短几句话写出歌曲并模拟各种音效。Meta发布开源AI工具AudioCraft

聪明的东西

编译|周艳

编辑|云鹏

智动智8月3日报道,今天,Meta发布了一款名为AudioCraft的开源AI工具,该工具可以帮助用户根据文本提示创作音乐和音频。

Meta表示,这款开源AI工具综合使用了AudioGen、EnCodec和MusicGen等大型模型,不仅可以生成各种模拟音频效果,还可以减少声音伪影。用户在输入文本内容后,可以使用这个人工智能工具生成高质量、逼真的音频和音乐。

目前,音乐在某种程度上被认为是最具挑战性的音频类型,因为生成任何类型的高保真音频都需要对不同尺度的复杂信号和模型进行建模。Meta通过自监督音频表示学习和许多分层或级联模型生成音乐,以便当原始音频输入系统时,可以捕获信号中的远程结构。),同时生成音频。

与之前的AI工具相比,AudioCraft背后的模型是由授权音乐库训练的,避免了版权风险;其次,由于它是针对公共音效进行训练的,因此可以生成包括狗叫、脚步声在内的各种模拟音效;最后简化了音频生成模型的整体设计,开源的形式也帮助其他人开发自己的音乐模型。但目前来说,AudioCraft仍然无法替代人类创作复杂而优秀的音乐作品。

1、经过20000小时的授权音乐训练,压缩后的文件大小比MP3格式小10倍。

从目前Meta的介绍来看,Audiocraft背后使用的三个模型中,MusicGen已经接受了Meta拥有且特别授权的音乐库的训练,可以根据文本提示生成音乐。

今年6月初,Meta推出了这款名为MusicGen的开源AI模型。据悉,这是一个深度学习语言模型。它接受了20,000小时的音乐训练,包括大约400,000条录音、文本描述和元数据。

AI模型MusicGen背后的论文基础,来源:MetaAI博客

此外,另一个模型AudioGen经过公共音效训练,可以根据文本提示生成音频,例如模拟狗叫声或脚步声。从Meta的介绍来看,AudioGen是Meta和耶路撒冷希伯来大学研究团队合作的AI模型。它可以通过输入文本生成音频,也可以扩展现有的音频。AudioGen可以区分不同的声音对象并在声学上将它们分开。

Meta演示AudioGen文本转音频效果,来源:MetaAI博客

最后要说的是EnCodec编解码器。以前,由于需要对原始音频信号中极长的序列进行建模,从原始信号生成音频对研究人员来说是一个巨大的挑战。以几分钟的音乐曲目为例,以44.1Hz的标准质量采样后,将形成数百万个时间步。

相比之下,在Llama和Llama2等大型模型的支持下,用户输入的文本可以被处理成子词,从而每个样本只生成几千个时间步。

因此,Meta团队使用了基于深度学习的音频编解码器(neuralaudiocodec)EnCodec,它由AI驱动,可以从原始信号中学习离散音频标记(自回归语言模型),为研究人员提供音乐样本的新固定表示。“词汇”。研究人员可以在这些离散的音频标记上训练自回归语言模型,最后,在将标记转换回音频空间时,使用EnCodec的解码器生成新的标记和新的音乐。

编解码EnCodec背后的论文基础,来源:MetaAI博客

据悉,EnCodec可以将音频压缩到比MP3格式小10倍的水平,而不会损失音频质量。这主要是由于EnCodec中的残差矢量量化瓶颈,它可以生成多个具有固定词汇的并行音频标记流。由于不同的标记流可以捕获不同级别的音频波形信息(audiowaveform),因此研究人员可以从所有音频流中重建高保真音频。

2.Meta表示,推动模型开源AudioCraft仍然难以生成复杂的音乐

在公告中,Meta还展示了MusicGen和AudioGen的工作流程图,并表示将把这些模型开源,以便研究人员和从业者可以使用自己的数据集来训练适合自己的模型,帮助推进人工智能生成音频和音乐。该领域的发展。

MusicGen和AudioGen工作流程图,来源:MetaAI博客

与其他音乐模型相比,AudioCraft系列模型不仅能够生成长期一致的高品质音乐和音频,而且简化了音频生成模型的整体设计,使工具简单易用。Meta相信MusicGen可以成为一种新型乐器,就像原来的合成器一样。

当然,Meta也指出,使用AudioCraft来创作复杂而优秀的音乐仍然很困难,因此选择开源AudioCraft,以使其用于训练的数据多样化。

今年早些时候,谷歌还发布了名为MusicLM的音乐生成模型,并于5月份向用户提供。今天,GoogleLabs也在其官网上介绍,知名音乐家DanDeacon正在使用这种模式来创作音乐。此外,目前常见的音乐模型还有Riffusion、Mousai和Noise2Music。

结论:巨头“押注”大型音乐模式,或影响音乐创作

从目前公布的信息来看,AudioCraft不仅可以根据用户的文字提示生成音乐,还可以对音频进行无损压缩。同时,开源的格式也帮助更多的人参与相关音乐模型的构建,从而推动更高品质的音乐创作的产生。

随着Meta和Google两大巨头“押注”大规模音乐模型,音乐创作或将受到生成式AI的影响。但正如Meta指出的那样,生成式人工智能距离生成复杂的音乐还有很长的路要走。

本文转载自互联网,如有侵权,联系删除

本文地址:https://www.5i818.cn/2463.html

相关推荐

智能审阅、自动写作的现状与未来

智能审阅、自动写作的现状与未来

智能审稿和自动写作的现状和未来近日,山东电视台在全国两会报道中引入人工智能技术引起广泛关注。人工智能与新闻写作的融合早在10年前国外媒体...

AI写作 2024.02.13 0 75

发布评论

文章目录