腾讯混元视频大模型实测:功能丰富,但细节待提升

   发布时间:2024-12-05 22:40 作者:赵云飞

在科技日新月异的今天,人工智能领域再次迎来了重大突破。曾几何时,OpenAI宣布将推出文生视频大模型Sora,这一消息犹如一颗石子投入平静的湖面,激起了全球网友的广泛讨论和期待。然而,时间悄然流逝,Sora似乎仍停留在概念阶段,未见真容。反倒是亚马逊云科技捷足先登,发布了名为Nova Reel的文生视频大模型,谷歌也不甘落后,向企业用户开放了AI视频模型Veo。

与此同时,国内互联网巨头们也在紧锣密鼓地布局AI生成视频领域。快手旗下的AI团队率先打造出视频生成大模型可灵,清华大学与北京数生科技携手推出了Vidu,随后腾讯公司的AI团队也加入了这场竞赛,推出了混元文生视频大模型,并在其元宝App中上线供用户体验。

腾讯,作为国内首屈一指的互联网公司,在游戏、即时通讯、移动支付等领域拥有举足轻重的地位。然而,过去腾讯的技术研发能力时常受到外界的质疑。此番,腾讯与亚马逊云科技、谷歌等国际巨头同期推出视频生成大模型,无疑是对其研发实力的一次有力证明。

然而,技术的优劣终究要靠实践来检验。腾讯混元视频模型的实际表现如何呢?据用户反馈,混元大模型拥有130亿的参数量,是目前参数量最大的开源视频生成类大模型。在公测期间,用户每天可以获得多次视频生成机会,且生成的视频长度为5秒。从功能上来看,混元大模型提供了丰富的视频类型设置,如比例、风格、景别等,操作简便易用。

然而,在实际使用过程中,用户发现混元大模型生成的视频虽然画面逼真,但往往与用户的预期存在偏差。例如,在描述“夕阳西下,少女坐在靠窗的书桌前”的场景时,生成的视频中白人女孩的形象让用户感到“出戏”,且书桌、窗户等细节并未得到很好的呈现。而在描述天气变化的场景中,视频中的天气变化并未得到体现,部分人物动作也显得虚浮不自然。

为了验证混元大模型的一致性问题,用户用相同的描述语和镜头设置再次生成了视频。虽然两次生成的视频在细节上有所差异,但整体效果仍然未能完全满足用户的期待。相比之下,Vidu和可灵两款大模型在相同描述语下的表现则更为出色,它们能够更准确地捕捉并呈现用户描述中的细节和场景变化。

尽管如此,腾讯混元大模型作为新晋的视频生成大模型,其表现仍然值得肯定。它已经从0到1迈出了重要的一步,虽然目前还存在一些不足和需要改进的地方,但相信在腾讯技术团队和资金的支持下,混元大模型有望在未来实现更快的成长和进步。

随着全球互联网巨头们纷纷加入AI生成视频的竞赛,2025年有望成为视频生成大模型爆发的一年。届时,AI生成视频的长度将从数秒提升至分钟级,为全球文娱产业带来前所未有的变革。在这场激烈的竞争中,国内企业如腾讯、快手等已经及时入场并把握住了新时代的机遇。未来,它们能否在全球视频生成大模型行业中脱颖而出,让我们拭目以待。

 
 
更多>同类内容
全站最新
热门内容
本栏最新