Sora打开的魔盒 里面有什么?
时间:2024-02-20 00:00:00来自:第一财经字号:T  T

OpenAI的文生视频模型Sora的问世引发科技圈热议,传递了AI赛道“大力出奇迹”竞争升级的信号。

尽管Sora尚未对公众开放,但是OpenAI最新发布了由开发者通过Sora创作的视频合集,其中包括各种海洋生物在海面上骑自行车、网红祖母在托斯卡纳厨房教做菜、未来火星上的无人机比赛以及鸭嘴兽带着冒险仓鼠翱翔在天空的场景。

在Sora问世后,一些网友直呼这是对友商的“降维打击”。AI视频生成赛道此前的明星公司Runway和Pika等都已公开表示将加入这场竞赛。

“降维打击”

Sora最直观的技术突破不仅在于其生成视频的逼真性,而且在时长方面也甩开对手更大的距离。

Runway能够生成4秒长的视频,用户可以将其最多延长至16秒,这是AI生成视频在2023年所能达到的最长时长纪录;StableVideo和Pika也能分别提供4秒和3秒的视频。Sora可生成长达1分钟的视频,可以说是直接扔出“王炸”。

Runway有“AI视频界的MidJourney”之称。几个月前,Runway刚刚推出了第二代AI生成视频模型。今年1月,Runway宣布,用户将能够通过多头运动笔刷(MultiMotionBrush)功能,实现对AI生成视频中多个元素的运动控制。

Sora发布后,Runway的CEO克里斯托瓦尔·巴伦苏埃拉(CristóbalValenzuela)在社交媒体X上发布了两个字:“GameOn(比赛开始了)。”

Pika是AI视频领域的新晋竞争者,它于去年11月推出了生成式AI视频工具Pika1.0,目前也已开放测试。Pika此前对标的公司也是Runway,不过在Sora发布后,Pika创始人郭文景回应媒体称,已在筹备“直接冲,对标Sora”。

在OpenAICEO奥尔特曼(SamAltman)发布了一段由Sora生成的巫师主题视频后,AI图像生成领域的另一家领导者Stability创始人兼CEO莫斯塔克(EmadMostaque)在X平台上回应称:“你是一位巫师大人。”

谷歌最近也发布了下一代人工智能模型Gemini1.5,并公布了Lumiere模型的研究和演示片段,不过目前还不清楚谷歌计划何时公开该工具;Meta在去年年底推出了一种新的文本转视频模型EmuVideo,并称Emu将被整合到脸书(Facebook)和照片墙(Instagram)中。

“世界模型”提前实现了吗

本质上,Sora与AI视频生成公司Pika、Runway等采用了相似的底层模型,即Diffusion扩散模型。但不同之处在于,Pika和Runway等公司都采用了“小模型”的思维,也就是基于上一帧预测下一帧的方法创建视频;Sora把其中的实现逻辑进行了变化,将U-Net架构替换成了Transformer架构,这种新型架构被称为DiT,它将视频和图像表示为视觉块编码(Patch)的较小数据单元的集合,然后将其解码来创建视频,并且根据AI“缩尺律”(ScalingLaw),随着训练计算量的增加,样本质量将明显提高,实现大模型智能涌现的能力,这也帮助其在一定程度上理解真实世界的物理影响和因果关系。

OpenAI最新发布的Sora研究报告就以《视频生成模型成为世界模拟器》为题,彰显了其将大模型用于模拟物理世界的雄心。不过对于Sora是否真的理解物理世界,技术界还有不同的观点。

最直接的反对意见来自图灵奖得主,Meta公司首席科学家、AI团队负责人杨立昆(YannLeCun)。在他看来,仅仅根据提示词(prompt)生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。他在X平台上亮出观点:“这里存在‘巨大’的误导。”

杨立昆是AI“世界模型”概念的主要倡导者,Runway和Pika等公司都在朝着“世界模型”的发展方向前行。所谓“世界模型”,就是对真实的物理世界进行建模,让机器像人类一样,对世界有全面准确的认知。尽管“世界模型”不是AI视频生成的必需要素,它却是该领域较为高端的一个研究方向,学术色彩更浓。

在Sora发布同一天,Meta也推出了AI视频模型——联合嵌入预测架构(V-JEPA)。杨立昆解释道,JEPA创建的视频不是生成式的,而是在表示空间中进行预测。“联合嵌入击败了生成式。”他表示。

Sora显然也是奔着“世界模型”而去。不同的是,依靠OpenAI强大的工程化能力以及背后的算力支撑,Sora的发展速度似乎超越了同行数个量级,它的横空出世无疑让Meta、Runway等巨头公司和初创竞争对手面临更大的压力。

站在“巨人的肩膀上”

从OpenAI发布的技术报告中可以发现,强大的Sora作者团队主要成员有十余位,其中核心成员包括研发负责人布鲁克斯(TimBrooks)、皮布尔斯[William(Bill)Peebles]等,他们都毕业于加州大学伯克利分校(UCBerkley)。值得关注的是,名单中还有三名华人研究者。

而从Sora技术报告的参考文献来看,更多来自谷歌、Meta、MIT等业界和学界的技术人员也都作出了重要贡献,纽约大学助理教授谢赛宁就是其中的一位。尽管他公开表示自己与Sora团队没有关系,但他与皮布尔斯在扩散模型DiT方面的工作,为Sora大模型的实现提供了基础。

他还推测,Sora模型可能拥有约30亿参数。谢赛宁表示,如果这一推测合理,可能表明训练Sora模型不需要像人们预期的使用那么多的GPU算力,而且预计未来大模型的迭代会非常快。

AGI何时

本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持