Meta的开源MusicGenAI使用文本来创建歌曲流派混搭
据The Decoder报道,Meta 的 Audiocraft 研究团队刚刚发布了MusicGen,这是一种开源深度学习语言模型,可以根据文本提示生成新音乐,甚至可以与现有歌曲对齐。它很像音频的ChatGPT,让你描述你想要的音乐风格,放入现有的曲调(可选),然后点击“生成”。经过很长一段时间(在我的情况下大约 160 秒)后,它会根据您的文本提示和旋律吐出一小段全新的音乐。
Facebook 的 Hugging Face AI 网站上的演示可以让您描述您的音乐,并提供一些示例,例如“一首 80 年代流行歌曲,背景是重鼓和合成器垫”。然后,您可以“调整”给定歌曲的前 30 秒长度,并使用控件选择其中的特定部分。然后,您只需点击生成,它就会渲染长达 12 秒的高质量样本。
该团队使用了 20,000 小时的授权音乐进行训练,包括来自内部数据集的 10,000 条高质量音乐曲目,以及 Shutterstock 和 Pond5 曲目。为了加快速度,他们使用 Meta 的 32Khz EnCodec 音频分词器来生成可以并行处理的更小的音乐块。“与 MusicLM 等现有方法不同,MusicGen 不需要自我监督的语义表示 [并且] 每秒音频只有 50 个自动回归步骤,”Hugging Face ML 工程师 Ahsen Khaliq 在推文中写道。
上个月,谷歌发布了一款名为MusicLM的类似音乐生成器,但 MusicGen 生成的效果似乎稍好一些。在示例页面上,研究人员将 MusicGen 的输出与 MusicLM 以及其他两个模型 Riffusion 和 Musai 进行了比较,以证明这一点。它可以在本地运行(建议使用至少 16GB RAM 的 GPU)并提供四种模型大小,从小(3 亿个参数)到大(33 亿个参数)——后者最有可能制作复杂的音乐.
推荐阅读
- udk虚幻4引擎(游戏开发包工具)软件介绍(udk虚幻4引擎(游戏开发包工具))
- OG梅奥为什么离开nba Pubmed GIST文献月评第十九期(Jun 2018)
- 12306用户名和密码忘记怎么找回账号,12306用户名和密码忘记怎么找回
- 哈尔滨市极乐寺简介
- 二人麻将打法技巧,迅速如何掌握二人麻将技巧
- 故宫门票多少钱一张2021,故宫门票多少钱
- 如何删除微信中的表情包,微信如何删除自己保存的表情
- dnf已经有红字的怎么把红字洗掉,dnf已经洗出红字的装备怎么洗掉
- 海蛏子的家常做法,海蛏子的做法大全
- 微信聊天记录怎么恢复吗,微信聊天记录怎么恢复方法:
- qq飞车帧数如何能锁,QQ飞车帧数如何修改
- 1盎司相当于多少克黄金,盎司等于多少克及一盎司黄金等于多少克
- 怎么恢复路由器出厂,怎样恢复路由器出厂设置
- 触手tvlogo怎么买,如何录制触手TV文章
- 藏语常用问候语及礼貌语 旅行必备
- 腾讯文章的会员怎么取消自动续费,腾讯文章VIP会员怎么取消自动续费设置
- 支付宝绑定银行卡与银行预留手机号不符,支付宝绑定银行卡提示与预留手机号码不一致
- 如何饲养土狗,饲养土狗的实用方法
- 重装机兵最终明奇1.92红狼怎么加入,重装机兵最终明奇1.92攻略
- 华为云电脑是什么,怎么用