中国视频大模型Vidu挑战Sora的霸主地位

科技动态 2024-05-08 18:12 阅读:13

今年2月,中国发布了一款名为Vidu的视频大模型,与Sora展开竞争。Vidu采用了U-ViT架构,结合了Diffusion和Transformer技术,能够生成长达16秒、1080P分辨率的高清视频。与Sora相比,Vidu在视频时长和图像生成方面稍显不足,但在其他方面已经达到国际顶尖水平,并且在不断加速迭代中。

Vidu展示的官方视频展示了其多镜头生成、模拟真实世界、保持时空一致性、丰富想象力等核心能力。与其他AI生成视频不同,Vidu能够实现多样化的镜头切换,生成连贯、统一和流畅的视频画面。同时,Vidu也克服了画面时空一致性与场景的难题,保持视频画面的连贯性和真实感。

在模拟真实物理世界运动方面,Vidu的表现也非常出色,能够完美模拟各种细节,使视频更加逼真。此外,Vidu还能够合理地生成超现实主义画面,展示出其强大的创造力和想象力。

Vidu的U-ViT架构源自清华大学团队的研究,与Sora的DiT架构有着相似之处。Vidu团队对U-ViT架构的深入理解和工程经验使其能够快速突破视频生成的技术难题。通过开源的UniDiffuser模型,Vidu展示了其在多模态扩散模型领域的领先地位。

随着视频领域的加速迭代,多模态大模型的竞争愈发激烈。中国的Vidu和其他国际巨头的产品都在不断推陈出新,为视频领域的发展带来了新的可能性。未来,视频大模型的应用将更加广泛,为人们带来更多的创新和乐趣。