腾讯混元视频大模型实测：功能丰富，但细节待提升-资讯-沃资讯

腾讯混元视频大模型实测：功能丰富，但细节待提升

发布时间：2024-12-05 22:40 来源：ITBEAR 作者：赵云飞

在科技日新月异的今天，人工智能领域再次迎来了重大突破。曾几何时，OpenAI宣布将推出文生视频大模型Sora，这一消息犹如一颗石子投入平静的湖面，激起了全球网友的广泛讨论和期待。然而，时间悄然流逝，Sora似乎仍停留在概念阶段，未见真容。反倒是亚马逊云科技捷足先登，发布了名为Nova Reel的文生视频大模型，谷歌也不甘落后，向企业用户开放了AI视频模型Veo。

与此同时，国内互联网巨头们也在紧锣密鼓地布局AI生成视频领域。快手旗下的AI团队率先打造出视频生成大模型可灵，清华大学与北京数生科技携手推出了Vidu，随后腾讯公司的AI团队也加入了这场竞赛，推出了混元文生视频大模型，并在其元宝App中上线供用户体验。

腾讯，作为国内首屈一指的互联网公司，在游戏、即时通讯、移动支付等领域拥有举足轻重的地位。然而，过去腾讯的技术研发能力时常受到外界的质疑。此番，腾讯与亚马逊云科技、谷歌等国际巨头同期推出视频生成大模型，无疑是对其研发实力的一次有力证明。

然而，技术的优劣终究要靠实践来检验。腾讯混元视频模型的实际表现如何呢？据用户反馈，混元大模型拥有130亿的参数量，是目前参数量最大的开源视频生成类大模型。在公测期间，用户每天可以获得多次视频生成机会，且生成的视频长度为5秒。从功能上来看，混元大模型提供了丰富的视频类型设置，如比例、风格、景别等，操作简便易用。

然而，在实际使用过程中，用户发现混元大模型生成的视频虽然画面逼真，但往往与用户的预期存在偏差。例如，在描述“夕阳西下，少女坐在靠窗的书桌前”的场景时，生成的视频中白人女孩的形象让用户感到“出戏”，且书桌、窗户等细节并未得到很好的呈现。而在描述天气变化的场景中，视频中的天气变化并未得到体现，部分人物动作也显得虚浮不自然。

为了验证混元大模型的一致性问题，用户用相同的描述语和镜头设置再次生成了视频。虽然两次生成的视频在细节上有所差异，但整体效果仍然未能完全满足用户的期待。相比之下，Vidu和可灵两款大模型在相同描述语下的表现则更为出色，它们能够更准确地捕捉并呈现用户描述中的细节和场景变化。

尽管如此，腾讯混元大模型作为新晋的视频生成大模型，其表现仍然值得肯定。它已经从0到1迈出了重要的一步，虽然目前还存在一些不足和需要改进的地方，但相信在腾讯技术团队和资金的支持下，混元大模型有望在未来实现更快的成长和进步。

随着全球互联网巨头们纷纷加入AI生成视频的竞赛，2025年有望成为视频生成大模型爆发的一年。届时，AI生成视频的长度将从数秒提升至分钟级，为全球文娱产业带来前所未有的变革。在这场激烈的竞争中，国内企业如腾讯、快手等已经及时入场并把握住了新时代的机遇。未来，它们能否在全球视频生成大模型行业中脱颖而出，让我们拭目以待。

更多>同类内容