相比Suno,海绵音乐在AI生成的中文歌曲,提高了吐字的清晰度和演唱的流畅性,音乐曲风也更符合中国人的喜好。
音乐大模型天工“SkyMusic”是昆仑万维推出的国内首个音乐SOTA模型,基于昆仑万维的“天工3.0”超级大模型打造,能够快速生成多种风格的音乐作品。
“天工SkyMusic”采用的是音乐音频领域类Sora模型架构,Large-scale Transformer负责谱曲,来学习Music Patches的上下文依赖关系,同时完成音乐可控性,Diffusion Transformer负责演唱,通过LDM让Music Patches被还原成高质量音频,使得“天工SkyMusic”能够支持生成80秒44100Hz采样率双声道立体声歌曲。
天谱乐是趣丸科技今年7月发布的全球首个多模态配乐大模型,上线时间比天工晚,但也比海绵音乐略早一个月,产品从一上线就全面接入了其旗下应用唱鸭APP,向所有用户开放。
趣丸科技一直深耕音乐、音频领域,旗下的拳头产品还有TT语音,如今累计注册用户已超2亿,是国内最大的兴趣社交平台之一。
天谱乐大模型集成了图片理解算法、旋律生成算法、视频理解算法、配器识别算法等领先技术,多模态理解与生成能力比肩国际先进水平。
值得关注的是,天谱乐大模型不仅支持文生音乐、音频生音乐,还首创了图片、视频生成音乐功能,比Suno早推出3个月,某种程度上,意味着它的多模态输入能力超越Suno。这也是目前几款国产AI音乐中,有明显特色功能的一款产品。
基于自研的画面情绪理解模型等领先技术,天谱乐大模型不仅可以根据视频画面的明暗、色彩、情绪的细微变化逐帧识别和理解,也可以理解音乐的和弦、旋律、歌词、演唱风格等复杂特征,最终生成高契合度的视频配乐。
简单来说,用户仅需上传相册中的一张图片或一段不超过60秒的视频,即可生成与高度适配画面的带人声唱词的完整歌曲,生成效果达到唱片发行级水准。
天谱乐生成人声歌曲:
事实上,国内音乐双巨头腾讯音乐和网易云音乐,也分别推出了X·Studio和启明星这样的产品,以追赶当前生成式人工智能的浪潮。
但或许是巨头本身凭借强大的版权库,已经能够收获足够的市场份额和商业回报,所以外界感受到的是,这两家公司在AI音乐上的投入和活跃度始终不及上述代表性的玩家。
而在与全球科技巨头角逐AI大模型这一场比赛,行业内的一个共识是,AI应用是国内公司少有的优势之一,也是少有能够赶超国外大模型公司的机会。这也就意味着,探索和创造出更多用户真正会使用的产品,以及可落地商业化场景,才是国产大模型能够持续进化的基石和未来。
这也符合趣丸科技副总裁贾朔对音乐大模型的理解。他表示,“降低门槛让普通用户体验音乐创作的乐趣”是自研天谱乐产品的价值主张。
音乐原创的专业度很高,但是,在AI的辅助之下,用户可以只需要输入一句话、一张照片或一段视频,在1-2分钟内生成一首词曲结构相对完整的歌曲。