快手携手北大开源新AI模型,10秒768P视频轻松生成?

   发布时间:2024-10-12 23:40 作者:柳晴雪

近日,快手科技与北京大学及北京邮电大学的研究团队联手,推出了一款名为Pyramid Flow的开源文生视频AI模型,该模型为开发者、艺术家和创作者提供了更加高效、灵活的视频生成解决方案。

Pyramid Flow在视频生成速度上表现优异,仅需56秒即可生成一段5秒、384p的视频,其速度在同类模型中名列前茅,甚至超越了部分全序列扩散模型。

在视频质量方面,Pyramid Flow同样表现出色。它能够基于文本描述,生成最长10秒、1280x768分辨率、24fps的高质量视频,同时在光影效果、运动动作一致性、文本语义还原和色彩搭配等方面也展现出卓越的性能。

为了实现高效的视频生成,Pyramid Flow引入了新颖的“金字塔流匹配”技术,通过分阶段生成视频来降低计算成本。与传统模型相比,它在大多数阶段使用低分辨率,仅在最终阶段达到全分辨率,有效减少了所需的tokens数量,仅为传统扩散模型的四分之一。

目前,这款创新的Pyramid Flow模型已在Hugging Face平台上线,并实现了完全开源。这一技术的推出,不仅为视频生成领域带来了新的突破,也为处理和生成高维度视频数据提供了有效的解决方案。

 
 
更多>同类内容
全站最新
热门内容
本栏最新