Sora来了,可灵、即梦们先别慌
从Sora亮相到发布的这10个月里,国内的Sora们一直在抓紧追赶。此次Sora正式发布后,「定焦One」挑选了国内外几家比较有代表性的AI生成视频工具,进行实测对比。
先看各大工具在生成秒数、收费价格上的情况。
单次生成秒数上,Sora凭借20秒领先,紧随其后的是Runway,可以达到10秒,相比之下,国内的产品普遍都在5-6秒。
需要说明的是,白日梦虽然最长可达6分钟,但非单次文生视频长度,它根据文字提示先生成人物,然后再生成分镜、编辑图片,最后连成一段视频,所以支持的时间较长。
在收费上,国内的产品都可以不付费体验,有些会限制使用次数。Sora则必须付费才可以使用,且门槛不低,20美元起步,Runway其次,最低月付费15美元。
再看各家提供的具体功能及对应效果。
综合从业者的说法以及Sora最新发布的功能,我们从两个维度进行测试。
1、基础功能:主要测试文生视频的能力,考察产品对文字指令的理解度、运动过程中人物面部的清晰度和多人物的准确度。为了覆盖以上三个难点,「定焦One」给出了两条提示词:
第一条:镜头中景拍摄,夕阳下,两个长头发的女生,一个穿着黄裙子,一个穿着蓝裙子,手里都拿着胡萝卜,旁边还有三只小兔子,小兔子慢慢跑过去吃胡萝卜,电影级调色。
这条主要测试多主体数量的准确度,让人大跌眼镜的是,Sora没能识别出主体数量,只生成了两只兔子(测试时已将提示词转换为英文),不过,其他的地方都是比较准确的。
Sora提示词
同样踩坑的还有通义万相,不仅弄丢了一只兔子,还增加了一个女孩。
其他产品表现较好,均能准确理解提示词,只是在画风上有所差异。
第二条:镜头特写拍摄,灯光,一个有着一头黑色卷发的中式少女,穿着一条白裙子,胸前手握一束粉色鲜花,眼睛先低头看鲜花,然后慢慢抬起头来微笑,电影级调色。
这条主要测试各工具对于人物面部的特写,以及对复杂指令的理解程度。
从生成效果来看,几家都理解了特写拍摄、少女、裙子、粉色鲜花、低头看花、微笑等人、物和动作,但问题出在指令解读上,比如可灵没有读懂“一个有着一头黑色卷发的中式少女”,随后我们换成“一个中式少女、黑色长卷发”才成功生成。
可灵提示词
各家对“中式少女”的理解也不尽相同,比如智谱清言生成人物的更像外国女孩,相比之下,在FilmAction里选择新中式风格,先文生图,再图生视频的理解最好,但使用起来也复杂一些。
「定焦One」还对比了AI工具这半年来的进化速度。以即梦为例,和五个月前相比,人物真实感有明显提高。
综上,在基础功能上,Sora的表现还谈不上惊艳。
2、进阶功能:主要测试此次Sora发布的新功能,也是本次Sora宣传的重点。
多位从业者提及,Remix(重混)功能实现起来比较复杂,因此我们直接上难度测试了这一项,让Sora将此前生成视频中的兔子替换成小狗,结果出现了胡萝卜或者小狗起飞的状况。
看来,实际操作远没有样片中丝滑。不过,也有从业者表示,实测中存在一定偶然因素,最终效果和提示词、场景、风格的关系比较大。
结语
经过一番对比,不难发现,尽管Sora的发布让人震撼,但目前其实力还没强到让国内从业者恐慌的程度,大家对Sora的整体评价是,效果在预期之内。
生数科技投融资负责人樊家睿评价,相比今年2月份释放的demo,Sora在模型效果方面,真实感上并没有显著变化。另外,结合多位网友实测反馈,Sora在长时间处理复杂动作时还存在一定困难,模拟物理世界时可能会犯错。
至于它发布的一系列新功能,从业者们见仁见智。
瀚皓科技CEO吴杰茜告诉「定焦One」,和Sora类似的Storyboard(故事板)、Style presets(风格预设)功能在FilmAction中已经实现,Blend(混合)功能最先在国外的AI生成视频工具Luma中亮相,主要原理是首尾帧生成,Re-cut(重新剪辑)功能底层依靠的是视频续写,目前国内工具也已经具备。
不过,AI行业资深研究者江树表示,此次Sora发布的一些功能属于独家,国内的产品基本没有。尽管从技术上来说并不新鲜,比如可灵的运动笔刷、首尾帧功能也能做到视频衔接和循环,但他觉得,Sora的实现方式比较高明。
他以Remix举例,用户想改变视频中的主体,国内基本是通过“替换关键帧”实现,但Sora的Remix不是,因为在直播演示中,猛犸象在变成机器人时,沙子扬起的细节都能与主体保持一致。
“或许Sora目前透露出的最大优势是处理细节的连贯性。”江树表示,他举例,在直播演示中,机器人在沙漠中漫步,这一画面从远景到特写,中间的转换十分自然。Sora的空间感也不错,摄像机绕着一个物体进行360度旋转,每个角度下的细节都非常准确,这说明Sora对三维场景有较为完整的理解。
另一个加分项是产品体验。江树表示,Sora这次发布的是一个从视频生成到制作成品的端到端的完整产品,不像之前ChatGPT发布时只有一个对话框。
“Sora在基础的文生视频、图生视频以外,提供了一些提升视频创作体验的功能,说明OpenAI确实更关注产品体验了,”樊家睿觉得,Sora新功能的实现路径非常明确,对于他们而言,背后不是技术实现难度问题,主要是时间问题。
接下来,AI生成视频赛道又要卷起来了。