一个开源库搞定种种文本到音频天生,Meta宣告AudioCraft
最近,个开搞定告Meta 宣告并开源了多个 AI 模子 ,源库好比 Llama 系列模子 、种种分割所有的文本 SAM 模子 。这些模子增长了开源社区的到音钻研妨碍。如今,频天Meta 又开源了一个可能天生种种音频的个开搞定告 PyTorch 库 ——AudioCraft,并果真了其技术细节 。源库
代码地址:https://github.com/facebookresearch/audiocraft
名目主页:https://audiocraft.metademolab.com/?种种utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_content=card
AudioCraft 可能基于用户输入的文本天生高品质 、高保真的文本音频。咱们先来听一下天生下场。到音
AudioCraft 可能天生一些事实场景中的频天声音,好比输入文本 prompt:「Whistling with wind blowing(风咆哮而过)」
还能天生有旋律的个开搞定告音乐,好比输入文本 prompt :「Pop dance track with catchy melodies,源库 tropical percussions, and upbeat rhythms, perfect for the beach(盛行舞曲,具备朗朗上口的种种旋律、热带侵略乐以及欢喜的节奏,颇为适宜海滩)」
致使还可能抉择详细的乐器,天生特定的音乐 ,好比输入文本输入文本 prompt:「Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves(简朴的曲调,环保理念 ,尤克里里 ,以及声 ,轻松 ,随以及 ,有机乐器 ,暖以及的节奏)」
AudioCraft 简介
比照于文本 、图像,音频天生是更具挑战性的 ,由于天生高保真音频需要对于重大的信号以及方式妨碍建模。
为了高品质地天生种种音频 ,AudioCraft 搜罗三个模子:MusicGen、AudioGen 以及 EnCodec 。其中 ,MusicGen 运用 Meta 具备版权的音乐数据妨碍磨炼,基于用户输入的文本天生音乐;AudioGen 运用公共音效数据妨碍磨炼 ,基于用户输入的文本天生音频;EnCodec 用于缩短音频并以高保真度重修原始信号