在音乐生成领域,模型的速度与质量一直是开发者们追求的平衡点。据悉,在文本生成音乐模型中,模型会根据码本模式以自回归方式或并行解码。只是,扁平化码本虽然代表了最高质量的解码策略,但速度却慢如蜗牛。
面对这一挑战,Meta AI近日推出了一款名为Stack-and-Delay的新码本模式。这款模式在生成速度上实现了质的飞跃,其生成速度比普通平面解码快四倍。这使得推理时间接近延迟解码策略的时间,并且允许在小批量大小的GPU上进行更快的推理。
据Huggingface报道,Stack-and-Delay这种全新的解码策略,在主观评估中表现出色。在给定相同文本提示的情况下,新模型生成的样本通常比竞争模型生成的样本更受欢迎。这一结果不仅证明了Stack-and-Delay在理论上的优越性,也为其实际应用提供了有力支持。
传统的音乐生成模型,如扁平化码本,虽然保证了解码质量,但速度却成了制约其发展的瓶颈。Stack-and-Delay 模式的出现,如同为音乐生成领域带来了一股清风。它通过将解码过程进行并行处理,使得生成速度比传统平面解码快了四倍,这无疑为创作者提供了更高效的音乐生成体验。
据悉,这一创新解码策略如现场演出、实时互动等,Stack-and-Delay 模式都能展现出其独特优势。
Stack-and-Delay 模式将有望推动音乐生成技术向更加智能化、个性化的方向发展。未来的音乐创作,可能不再仅仅是创作者个人的才华展现,而是结合人工智能技术的智慧结晶。