在AI技术日新月异的当下,视频大模型领域迎来了前所未有的发展浪潮。继OpenAI发布其视频大模型Sora Turbo之后,尽管其支持的生成视频时长仅为最初宣传的三分之一,且仍处于小范围测试阶段,但这并未阻挡国内AI企业在此领域的快速推进。
今年2月,Sora的首次亮相标志着视频大模型行业的黄金发展期正式开启。然而,令人意想不到的是,作为行业推动者的Sora,在国内市场却面临了激烈的竞争,甚至显得有些掉队。国内市场上,腾讯、阿里巴巴、字节跳动等互联网巨头纷纷推出了自己的AI视频大模型,市场上一时间涌现出了不下二十款同类产品。
AI视频大模型不仅赋予了AI更强大的理解和重构真实世界的能力,也为用户提供了无限的想象空间。与泛用场景的大语言模型不同,视频大模型的使用场景更为专业,因此现阶段多需要付费才能随心生成视频。免费用户通常只能依靠系统积分或每日赠送的次数生成视频,且可能无法体验部分高阶功能。
在众多国内AI视频大模型中,快手科技旗下的可灵无疑是先行者之一,其体验在众多模型中名列前茅。可灵支持文生视频和图片生成视频两种模式,且能够调整创意想象力和创意相关性。用户可以通过文字描述生成最高5秒的高品质视频,或通过图片生成最高10秒的标准品质视频,并支持运镜调节。一段描述宁静海滩的视频生成后,无论是风吹椰子树的细节,还是猫咪舔舐毛发的动作,都表现得相当出色,尽管生成的视频场景是在白天而非夜晚。
抖音也不甘落后,推出了自己的视频大模型即梦。即梦除了支持文生视频和图生视频外,还加入了对口型功能,能够根据文本或录音调整视频。即梦更新迭代速度极快,目前已有多个版本可用。通过即梦生成的视频质量也相当不错,但猫咪的动作略显单调和僵硬,树叶也未随风而动。
腾讯推出的混元视频大模型则略显稚嫩,生成的视频质量不如可灵和即梦。腾讯混元目前仅支持文生视频,且每日免费生成次数有限。生成的视频中,月亮显得过于虚假,猫咪的动作也充满了违和感。
北京数生科技与清华大学联合研发的Vidu大模型则表现出了不俗的实力。Vidu支持文生视频和图生视频,还能根据同一主体不同角度的图片生成更具真实感的立体画面。生成的视频质量高,运镜自然流畅,细节丰富,唯一的漏洞在于沙滩的质感稍显不足。
智谱清言开发的清影大模型虽然功能丰富,但生成的视频质量却令人失望。画面中几乎看不到猫咪的存在,更像是一张静态图片。与同门师兄弟Vidu相比,清影在自然语言理解能力上还有待提升。
爱诗科技的PixVerse大模型则以其唯美的画面风格吸引了眼球。生成的视频中,小猫的毛发细节和水面的波纹都表现得十分到位,但猫咪的动作却显得有些僵硬。尽管如此,PixVerse的表现依然令人印象深刻。
从当前的市场表现来看,国内AI视频大模型领域已呈现出群雄逐鹿的态势。尽管各模型在细节上还存在一定的不足,但整体实力已不容小觑。未来,随着技术的不断进步和市场的日益成熟,AI视频大模型有望在更多领域发挥重要作用。