在科技界万众瞩目的焦点中,AI视频大模型领域迎来了新一轮的激战。就在近日,OpenAI在连续12天的发布会活动上,正式推出了其AI视频大模型Sora Turbo,但令人意外的是,这款模型最高仅支持生成20秒的视频,远低于初次公布时的宣传时长。更令人惊讶的是,Sora Turbo目前仍处于小范围测试阶段,并非所有用户都能立即体验。
回顾今年2月,Sora的首次亮相曾让视频大模型行业迎来了真正的黄金发展期。然而,如今看来,Sora似乎在这一波浪潮中有些掉队。相比之下,国内市场在短短时间内,已经涌现了不下二十款AI视频大模型,其中不乏互联网巨头腾讯、阿里巴巴、字节跳动等公司推出的产品。
AI视频大模型的出现,不仅赋予了大模型理解和重构真实世界的能力,更为用户提供了发挥想象力的无限可能。与面向泛用场景的大语言模型不同,视频大模型的使用场景相对更加专业,因此现阶段往往需要付费才能随心生成视频。尽管如此,这些模型仍然吸引了大量用户的关注和尝试。
在众多国产AI视频大模型中,有几款表现尤为突出。快手科技旗下的AI团队推出的可灵,便是其中的佼佼者。可灵不仅支持文生视频和图片生成视频两种模式,还能调整创意想象力和创意相关性。用户可以通过简单的描述,生成细节丰富、质量上乘的视频。例如,当输入“宁静的海滩,满月高悬在天空……”的描述时,可灵能够生成出包含风吹动椰子树、猫咪舔舐毛发等细节的视频,尽管在昼夜转换上略有瑕疵。
抖音也不甘示弱,推出了即梦视频大模型。即梦不仅支持文生视频和图生视频,还加入了对口型功能,用户可以通过上传图片、视频和文本或录音,调整视频内容。即梦在自然语言的理解能力上表现尤为出色,但生成的视频在灵动感上稍显不足。例如,猫咪的动作过于单调和僵硬,树叶也没有随风而动。
腾讯则推出了混元视频大模型,并在腾讯元宝App和网页端上线。然而,混元在生成视频的质量上还有待提升,例如猫咪舔舐毛发的动作显得违和,椰子树的细节也不够丰富。不过,拥有腾讯这样的后盾,相信混元在经过几次迭代升级后,能够迎头赶上。
由北京数生科技与清华大学联合研发的Vidu和智谱清言开发的清影也值得关注。Vidu在生成视频的质量上同样表现出色,运镜自然流畅,细节丰富。而清影则支持更多样化的功能,如调节视频风格、情感氛围等,但在生成视频的质量上还有待提升。
尽管这些AI视频大模型在细节上还存在一定的漏洞,如猫咪动作僵硬、沙滩质感不足等,但它们已经迈出了从无到有的关键一步。未来,随着自然语言解析能力、画面细节打磨和运镜、时长等方面的不断升级迭代,AI视频大模型有望成为用户手中创作微短视频的强大助手。然而,如何在激烈的市场竞争中脱颖而出,创造盈利点,将是这些企业需要面对的重要挑战。