资讯频道

资讯视频基金股票

首页世界经济中国经济宏观政策财经时事

首页 > 资讯频道 > 世界经济

谷歌回击OpenAI:提了121次AI,AI搜索、智能对话、视频生成来了

时间：2024-05-15 00:00:00来自：第一财经字号：T T

两天时间里，科技界先后迎来两场重要的发布会。前一天，OpenAI刚刚发布了重大更新GPT-4o，号称颠覆语音助手，再度全网刷屏，紧随其后的谷歌压力颇大。

北京时间5月15日凌晨，谷歌在2024年I/O开发者大会上展开回击：一次性掏出十几款产品更新，重磅级的发布包括轻量化的模型Gemini1.5Flash、AI通用智能体ProjectAstra、强大的AI搜索、视频生成模型Veo、第六代TPUTrillium等，Gemini1.5Pro的上下文窗口也从100万tokens升级到200万。

在两个小时的主题演讲里，据Gemini统计，"AI"被提及了121次，谷歌官网同步发布了11篇AI相关的博客介绍此次更新。这场不见硝烟的战争，谷歌看起来全力以赴了。5月14日，谷歌美股(GOOGL)涨0.71%，报170.34美元/股，截至发稿其盘后跌0.27%。

反击OpenAI

在发布会前夕，猎豹移动董事长兼CEO傅盛发文表示，"OpenAI发布会虽然惊艳，但谷歌看完应该不慌了。"

相比通过底层技术的革新实现跨越式发展，傅盛认为，这一次OpenAI的发布会是在工程能力上发力，也就是说把原有的东西做得更好，更便宜、更集成化、用户体验更好，"这次OpenAI发布会上最大的亮点就是语音助手，大家都感叹交互起来和人一样，但像谷歌这样的公司做这类语音助手能力一定不差，

工程能力的提升是大公司容易做到的事情。"

谷歌不负期待，掏出了类似的视觉识别和语音交互产品ProjectAstra，被认为是正面交战GPT-4o。

"我们一直希望开发能在日常生活中提供帮助的通用AI智能体。"谷歌DeepMind首席执行官哈萨比斯(DemisHassabis)第一次出现在I/O大会上，他表示Astra(高级视觉和对话响应智能体)项目是谷歌在构建未来AI助理方面的进展。

Astra项目展示了多模态理解和实时对话能力。在谷歌演示的视频中可以看到，通过摄像头，这个AI助手能完成帮忙理解屏幕中的代码、找眼镜在哪里这样的工作，也可以通过画面理解"薛定谔的猫"这样的概念。

哈萨比斯在演讲中表示，要做到真正实用，智能体需要能够像人一样理解周围复杂多变的环境并作出反应，还需要具备主动性、"会学习"并能满足个性化需求，这样用户才能自然地与它交谈，不会有滞后或延迟，"虽然我们在开发能够理解多模态信息的AI系统方面取得了惊人的进步，但要将回答时间缩短到可对话的程度，仍是一项非常艰巨的工程挑战。"

从演示上看，Astra的对话延迟似乎比GPT-4o长，在提问之后有一定的反应时间，相比昨天GPT-4o近似人类自然快速地对答有差距，此外，谷歌在演示中也没有体现是否能打断智能助手说话，没有表现出GPT-4o那样多的人类情感。

谷歌此次另一回击OpenAI的产品是视频生成模型Veo。今年2月，OpenAI发布视频生成模型Sora引发全网热烈讨论，彼时几小时前才发布Gemini1.5Pro大模型的谷歌风头被抢完。

此次，谷歌推出Veo对标Sora，表示这是"我们最强大的视频生成模型"，不仅能生成各种电影和视觉风格的高质量1080p分辨率视频，理解"延时拍摄"或"风景空中拍摄"等电影术语，时间还可以超过一分钟。谷歌表示，凭借对自然语言和视觉语义的深入理解，Veo生成的视频能够准确捕捉提示的语气并在较长的提示中呈现细节。

谷歌演示了一段汽车追逐的示例生成视频，从整体画面上看，镜头是一致且连贯的，移动较为真实，但相比Sora以往放出的视频，细节没那么清晰，大全景为主。不过，在官网的博客中，谷歌放出了更多的生成案例概览，其中不乏高清且精致的画面。

在影音领域，除了视频，谷歌还更新了图片生成模型Imagen3，官方提到，与此前的模型相比，Imagen3分散注意力的视觉伪影更少，细节逼真。谷歌还发布了一套名为MusicAISandbox的音乐AI工具，可以让人们从头开始创作新的器乐部分，以新的方式转换声音等等。

变革搜索

I/O大会之后，英伟达高级科学家JimFan发表观后感表示，谷歌做对了一件事，"他们终于开始认真努力将人工智能融入搜索框，"他认为，谷歌最强大的护城河是分销，"Gemini不必是最好的模型，就可以成为世界上使用最广泛的模型。"

谷歌首席执行官桑达尔·皮查伊(SundarPichai)在演讲中提到，Gemini带来的最令人兴奋的变革之一是在Google搜索中。"我们最大的投资和创新领域之一是我们的创始产品——搜索。"皮查伊回顾，25年前谷歌就创建了搜索，如今Gemini时代的搜索提升到了全新的水平。

谷歌搜索此次推出了AI概述(AIOverview)新功能，用户在搜索框输入问题，即可得到一个AI总结的答案，且能处理超长问题，如AI可以帮忙查找波士顿最好的瑜伽或普拉提工作室，并提供入门优惠详情以及步行所需时间，并附带课程标价，地图上的位置也能标记出来。

凭借Gemini的多模态功能，谷歌搜索还可以做到利用图片搜索产品和文字信息，能用"CircletoSecarch"功能圈出图片中的一部分去搜索。具体而言，谷歌推出了新功能AskPhotos，可以一键从图库中找到想要的照片和视频。

谷歌在演示中举例，假设在停车场缴费时，却想不起自己的车牌号。以往，用户可能需要翻找多年积累的照片来寻找车牌，但现在

分享到

有财经·健谈

有财经·健谈...[详细]

股票市场-基础分析
世界上任何股票市场都充满了风险和机会，吸引着不同国家、不同信仰、不同肤色...[详细]
股票市场-技术分析
在股票市场中，通过对反映市场状况的资料(例如成交价、成交量或成交金额)进行分析...[详细]
股票市场-证券投资基金
投资与投机的融合是证券交易之神韵所在，在“胜者为王”的背后蕴藏着鲜为人知的玄机...[详细]

本站郑重声明：所载数据、文章仅供参考，使用前请核实，风险自负。

本站由北京济安金信科技有限公司提供技术支持

有财经·健谈

股票市场-基础分析

股票市场-技术分析

股票市场-证券投资基金