深水炸弹!周鸿祎火速发声,"马斯克说人类愿赌服输"!这行业又要爆发?
时间:2024-02-19 20:11:02来自:中国基金报字号:T  T

AI巨头们在一天内先后放出“深水炸弹”,再次吸引了全球目光。

OpenAI在2月16日发布了首个文生视频模型Sora,可直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,效果震撼。

业内普遍认为,AI多模态能力飞跃式发展,将会令智能算力资源更为稀缺。360创始人周鸿祎在表达对Sora看法时就提到,OpenAl训练这个模型应该会阅读大量视频。

在业内看来,多模态的训练及推理将进一步提升对算力基础设施的需求。

值得注意的是,谷歌也在同日发布其大模型矩阵的力作Gemini1.5。经过扩展后,这一多模态大模型可一次处理大量的信息——包括长达1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。

Sora三大亮点突出

2月16日,OpenAI发布首个文生视频模型Sora。从目前OpenAI展示的信息来看,Sora三大亮点突出,实现AIGC领域的里程碑式进展。

首先是Sora可以生成60秒长视频,可以保持视频主体与背景的高度流畅性与稳定性;其次是单视频多角度镜头,Sora在一个视频内实现多角度镜头,分镜切换符合逻辑且十分流畅;再是理解真实世界的能力,Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。

目前,Sora尚未对公众全面开放,仅邀请部分测试者进行体验。

随后,OpenAI解释了Sora的工作原理:Sora使用了Transformer架构,是一个扩散模型,有极强的扩展性。

OpenAI称,Sora从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。

而视频和图像是被称为“补丁”的较小数据单位集合,每个“补丁”都类似于GPT中的一个标记(Token),通过统一的数据表达方式,可以在更广泛的视觉数据上训练和扩散变化,包括不同的时间、分辨率和纵横比。

据悉,Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好地遵循文本指令。

周鸿祎火速发声

犹如OpenAI在2022年底将ChatGPT-3.5公之于众一般,Sora在发布当日也立刻引起全球关注。

360创始人周鸿祎火速发布微博,提到自己对Sora的看法。周鸿祎对Sora给予了极高的评价。他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

在他看来,Sora只是小试牛刀,它展现的不仅仅是一个视频制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。他认为,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。

“很多人担心Sora对影视工业的打击,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。而一个视频或者电影是由无数个60秒组成的。”周鸿祎直言,“今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。”

谈到Sora最大的优势,周鸿祎表示,以往文生视频软件都是在2D平面上对图形元素进行操作,可以把视频看成是多个真实图片的组合,并没有真正掌握这个世界的知识。“但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。”

他表示,这次OpenAI利用大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力。“这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”

“马斯克说人类愿赌服输”值得注意的是,就在Sora发布后数小时,特斯拉CEO马斯克就在X平台上接连回复多条帖子“输出”观点。有网友在评论Sora生成的60秒时尚女子在东京街头散步时称,“ggPixar(皮克斯动画制作公司)”(编注:gg为GoodGames缩写,代指“打得好,我认输”),随后马斯克回复,“gghumans(人类)”。之后马斯克还称,通过AI增强的人类将在未来几年创造出最好的作品。

谷歌Gemini1.5同日发布

实际上,在发布Sora之前,OpenAI的CEO奥特曼便展望了未来两年AI发展。在他看来,人工智能有望在推理能力和可靠性、多模态(语音输入/输出、图像、视频)、可定制化和个性化三个领域大幅提升。

奥特曼认为,至少在未来5到10年内,AI大模型技术将处于一个非常陡峭的成长曲线上;同时,其透露OpenAI新一代模型将是一个多模态大模型,支撑语音、图像、代码和视频,并在个性化和定制化方面实现重大更新,具备更强的推理能力和更高的准确性;此外,他认为AI大模型的幻觉问题有望在新一代大模型中得到解决。

值得注意的是,另一巨头谷歌的举动也侧面印证了奥特曼的猜想。就在Sora发布的同日,谷歌也发布其大模型矩阵的最新力作——Gemini1.5,距离发布上一个版本Gemini1.0的时间仅2个月。

作为新版本最大的亮点,Gemini1.5版本中首个登场的多模态通用模型Gemini1.5Pro,把稳定处理上下文的上限扩大至100万Tokens。横向对比,两个月前发布的Gemini1.0Pro上下

  • 浏览记录
  • 我的关注
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持