艾巴生活网

您现在的位置是:主页>科技 >内容

科技

Meta的开源MusicGenAI使用文本来创建歌曲流派混搭

2023-06-13 08:49:44科技传统的飞鸟
据The Decoder报道,Meta 的 Audiocraft 研究团队刚刚发布了MusicGen,这是一种开源深度学习语言模型,可以根据文本提示生成新音乐,甚

据The Decoder报道,Meta 的 Audiocraft 研究团队刚刚发布了MusicGen,这是一种开源深度学习语言模型,可以根据文本提示生成新音乐,甚至可以与现有歌曲对齐。它很像音频的ChatGPT,让你描述你想要的音乐风格,放入现有的曲调(可选),然后点击“生成”。经过很长一段时间(在我的情况下大约 160 秒)后,它会根据您的文本提示和旋律吐出一小段全新的音乐。

Meta的开源MusicGenAI使用文本来创建歌曲流派混搭

Facebook 的 Hugging Face AI 网站上的演示可以让您描述您的音乐,并提供一些示例,例如“一首 80 年代流行歌曲,背景是重鼓和合成器垫”。然后,您可以“调整”给定歌曲的前 30 秒长度,并使用控件选择其中的特定部分。然后,您只需点击生成,它就会渲染长达 12 秒的高质量样本。

该团队使用了 20,000 小时的授权音乐进行训练,包括来自内部数据集的 10,000 条高质量音乐曲目,以及 Shutterstock 和 Pond5 曲目。为了加快速度,他们使用 Meta 的 32Khz EnCodec 音频分词器来生成可以并行处理的更小的音乐块。“与 MusicLM 等现有方法不同,MusicGen 不需要自我监督的语义表示 [并且] 每秒音频只有 50 个自动回归步骤,”Hugging Face ML 工程师 Ahsen Khaliq 在推文中写道。

上个月,谷歌发布了一款名为MusicLM的类似音乐生成器,但 MusicGen 生成的效果似乎稍好一些。在示例页面上,研究人员将 MusicGen 的输出与 MusicLM 以及其他两个模型 Riffusion 和 Musai 进行了比较,以证明这一点。它可以在本地运行(建议使用至少 16GB RAM 的 GPU)并提供四种模型大小,从小(3 亿个参数)到大(33 亿个参数)——后者最有可能制作复杂的音乐.