股票频道

资讯视频基金股票

首页个股要闻公司大事行业政策行业分析深度报道专题报道

首页 > 股票频道 > 行业分析 > 信息技术业

深水炸弹!周鸿祎火速发声,"马斯克说人类愿赌服输"!这行业又要爆发?

时间：2024-02-19 20:11:02来自：中国基金报字号：T T

AI巨头们在一天内先后放出“深水炸弹”，再次吸引了全球目光。

OpenAI在2月16日发布了首个文生视频模型Sora，可直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色，效果震撼。

业内普遍认为，AI多模态能力飞跃式发展，将会令智能算力资源更为稀缺。360创始人周鸿祎在表达对Sora看法时就提到，OpenAl训练这个模型应该会阅读大量视频。

在业内看来，多模态的训练及推理将进一步提升对算力基础设施的需求。

值得注意的是，谷歌也在同日发布其大模型矩阵的力作Gemini1.5。经过扩展后，这一多模态大模型可一次处理大量的信息——包括长达1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。

Sora三大亮点突出

2月16日，OpenAI发布首个文生视频模型Sora。从目前OpenAI展示的信息来看，Sora三大亮点突出，实现AIGC领域的里程碑式进展。

首先是Sora可以生成60秒长视频，可以保持视频主体与背景的高度流畅性与稳定性;其次是单视频多角度镜头，Sora在一个视频内实现多角度镜头，分镜切换符合逻辑且十分流畅;再是理解真实世界的能力，Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀，极大地提升了真实感。

目前，Sora尚未对公众全面开放，仅邀请部分测试者进行体验。

随后，OpenAI解释了Sora的工作原理：Sora使用了Transformer架构，是一个扩散模型，有极强的扩展性。

OpenAI称，Sora从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，视频也从最初的随机像素转化为清晰的图像场景。

而视频和图像是被称为“补丁”的较小数据单位集合，每个“补丁”都类似于GPT中的一个标记(Token)，通过统一的数据表达方式，可以在更广泛的视觉数据上训练和扩散变化，包括不同的时间、分辨率和纵横比。

据悉，Sora是基于过去对DALL·E和GPT的研究基础构建，利用DALL·E3的重述提示词技术，为视觉模型训练数据生成高描述性的标注，因此模型能更好地遵循文本指令。

周鸿祎火速发声

犹如OpenAI在2022年底将ChatGPT-3.5公之于众一般，Sora在发布当日也立刻引起全球关注。

360创始人周鸿祎火速发布微博，提到自己对Sora的看法。周鸿祎对Sora给予了极高的评价。他认为，Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

在他看来，Sora只是小试牛刀，它展现的不仅仅是一个视频制作能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。他认为，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。

“很多人担心Sora对影视工业的打击，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意，至少需要人给提示词。而一个视频或者电影是由无数个60秒组成的。”周鸿祎直言，“今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败TikTok，更可能成为TikTok的创作工具。”

谈到Sora最大的优势，周鸿祎表示，以往文生视频软件都是在2D平面上对图形元素进行操作，可以把视频看成是多个真实图片的组合，并没有真正掌握这个世界的知识。“但Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。”

他表示，这次OpenAI利用大语言模型优势，让Sora实现了对现实世界的理解和对世界的模拟两层能力。“这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。”

“马斯克说人类愿赌服输”值得注意的是，就在Sora发布后数小时，特斯拉CEO马斯克就在X平台上接连回复多条帖子“输出”观点。有网友在评论Sora生成的60秒时尚女子在东京街头散步时称，“ggPixar(皮克斯动画制作公司)”(编注：gg为GoodGames缩写，代指“打得好，我认输”)，随后马斯克回复，“gghumans(人类)”。之后马斯克还称，通过AI增强的人类将在未来几年创造出最好的作品。

谷歌Gemini1.5同日发布

实际上，在发布Sora之前，OpenAI的CEO奥特曼便展望了未来两年AI发展。在他看来，人工智能有望在推理能力和可靠性、多模态(语音输入/输出、图像、视频)、可定制化和个性化三个领域大幅提升。

奥特曼认为，至少在未来5到10年内，AI大模型技术将处于一个非常陡峭的成长曲线上;同时，其透露OpenAI新一代模型将是一个多模态大模型，支撑语音、图像、代码和视频，并在个性化和定制化方面实现重大更新，具备更强的推理能力和更高的准确性;此外，他认为AI大模型的幻觉问题有望在新一代大模型中得到解决。

值得注意的是，另一巨头谷歌的举动也侧面印证了奥特曼的猜想。就在Sora发布的同日，谷歌也发布其大模型矩阵的最新力作——Gemini1.5，距离发布上一个版本Gemini1.0的时间仅2个月。

作为新版本最大的亮点，Gemini1.5版本中首个登场的多模态通用模型Gemini1.5Pro，把稳定处理上下文的上限扩大至100万Tokens。横向对比，两个月前发布的Gemini1.0Pro上下

分享到

浏览记录
我的关注

涨幅
跌幅
振幅
换手率

loading...

涨幅
跌幅
振幅
换手率

loading...

本站郑重声明：所载数据、文章仅供参考，使用前请核实，风险自负。

本站由北京济安金信科技有限公司提供技术支持