腾讯混元大模型文生视频能力上线，130亿参数量支持双语输入-数码-沃资讯

腾讯混元大模型文生视频能力上线，130亿参数量支持双语输入

发布时间：2024-12-03 16:20 来源：ITBEAR 作者：任飞扬

腾讯近期宣布了一项重大技术突破，其混元大模型正式上线并开源了一项引人注目的能力——文生视频。这款大模型拥有高达130亿的参数量，并支持中英文双语输入，为用户带来了前所未有的视频生成体验。

在腾讯的展示中，一款由混元大模型生成的视频令人印象深刻。视频中，以肩摄视角切入，清晨的阳光透过纱帘温柔地洒落在一位老爷爷身上。他正专注地在木工台前雕刻，摄影机缓缓推进，特写镜头下，老爷爷布满皱纹的手指与纷飞的木屑清晰可见。背景中，老房间内的木工工具整齐排列，墙上挂满了已完成的作品，整个画面充满了生活气息与岁月的痕迹。

腾讯官方宣称，这款混元视频生成大模型能够生成“超写实”的高质量视频，画面稳定且不易变形。尤其在涉及镜面或镜子场景的视频中，该模型能够实现镜面反射动作与外部场景的完全同步，光影反射效果也基本符合物理规律，使得生成的视频更加逼真。

另一段视频则展示了冲浪者在超大水管浪尖上起跳的壮观场景。摄影机从海浪内部穿越而出，捕捉到了阳光透过海水的瞬间，水花在空中形成了完美的弧线，冲浪板划过水面留下的轨迹清晰可见。最终画面定格在冲浪者穿越水帘的完美瞬间，令人叹为观止。

还有一段手持长焦镜头跟拍的视频，展现了磨砂金属车厢在高速行驶中留下的光带。隧道灯光断续闪过，映照出乘客若隐若现的侧脸。防护玻璃上的水珠随着速度扭曲变形，构建出一个充满神秘感与光影变化的城市地下迷宫。

据了解，腾讯混元视频生成大模型采用了先进的DiT架构，并适配了新一代文本编码器，以提升语义遵循能力。这使得模型能够更好地应对多个主体的描绘，实现更加细致的指令和画面呈现。

在腾讯元宝App中，用户已进入“AI应用”并选择“AI视频”功能，即可申请试用这一前沿技术。腾讯表示，本次开源包含了模型权重、推理代码、模型算法等完整模型内容，旨在为企业与个人开发者提供免费使用和开发生态插件的机会。

更多>同类内容