谷歌回击OpenAI:提了121次AI,AI搜索、智能对话、视频生成来了
时间:2024-05-15 00:00:00来自:第一财经字号:T  T

两天时间里,科技界先后迎来两场重要的发布会。前一天,OpenAI刚刚发布了重大更新GPT-4o,号称颠覆语音助手,再度全网刷屏,紧随其后的谷歌压力颇大。

北京时间5月15日凌晨,谷歌在2024年I/O开发者大会上展开回击:一次性掏出十几款产品更新,重磅级的发布包括轻量化的模型Gemini1.5Flash、AI通用智能体ProjectAstra、强大的AI搜索、视频生成模型Veo、第六代TPUTrillium等,Gemini1.5Pro的上下文窗口也从100万tokens升级到200万。

在两个小时的主题演讲里,据Gemini统计,"AI"被提及了121次,谷歌官网同步发布了11篇AI相关的博客介绍此次更新。这场不见硝烟的战争,谷歌看起来全力以赴了。5月14日,谷歌美股(GOOGL)涨0.71%,报170.34美元/股,截至发稿其盘后跌0.27%。

反击OpenAI

在发布会前夕,猎豹移动董事长兼CEO傅盛发文表示,"OpenAI发布会虽然惊艳,但谷歌看完应该不慌了。"

相比通过底层技术的革新实现跨越式发展,傅盛认为,这一次OpenAI的发布会是在工程能力上发力,也就是说把原有的东西做得更好,更便宜、更集成化、用户体验更好,"这次OpenAI发布会上最大的亮点就是语音助手,大家都感叹交互起来和人一样,但像谷歌这样的公司做这类语音助手能力一定不差,

工程能力的提升是大公司容易做到的事情。"

谷歌不负期待,掏出了类似的视觉识别和语音交互产品ProjectAstra,被认为是正面交战GPT-4o。

"我们一直希望开发能在日常生活中提供帮助的通用AI智能体。"谷歌DeepMind首席执行官哈萨比斯(DemisHassabis)第一次出现在I/O大会上,他表示Astra(高级视觉和对话响应智能体)项目是谷歌在构建未来AI助理方面的进展。

Astra项目展示了多模态理解和实时对话能力。在谷歌演示的视频中可以看到,通过摄像头,这个AI助手能完成帮忙理解屏幕中的代码、找眼镜在哪里这样的工作,也可以通过画面理解"薛定谔的猫"这样的概念。

哈萨比斯在演讲中表示,要做到真正实用,智能体需要能够像人一样理解周围复杂多变的环境并作出反应,还需要具备主动性、"会学习"并能满足个性化需求,这样用户才能自然地与它交谈,不会有滞后或延迟,"虽然我们在开发能够理解多模态信息的AI系统方面取得了惊人的进步,但要将回答时间缩短到可对话的程度,仍是一项非常艰巨的工程挑战。"

从演示上看,Astra的对话延迟似乎比GPT-4o长,在提问之后有一定的反应时间,相比昨天GPT-4o近似人类自然快速地对答有差距,此外,谷歌在演示中也没有体现是否能打断智能助手说话,没有表现出GPT-4o那样多的人类情感。

谷歌此次另一回击OpenAI的产品是视频生成模型Veo。今年2月,OpenAI发布视频生成模型Sora引发全网热烈讨论,彼时几小时前才发布Gemini1.5Pro大模型的谷歌风头被抢完。

此次,谷歌推出Veo对标Sora,表示这是"我们最强大的视频生成模型",不仅能生成各种电影和视觉风格的高质量1080p分辨率视频,理解"延时拍摄"或"风景空中拍摄"等电影术语,时间还可以超过一分钟。谷歌表示,凭借对自然语言和视觉语义的深入理解,Veo生成的视频能够准确捕捉提示的语气并在较长的提示中呈现细节。

谷歌演示了一段汽车追逐的示例生成视频,从整体画面上看,镜头是一致且连贯的,移动较为真实,但相比Sora以往放出的视频,细节没那么清晰,大全景为主。不过,在官网的博客中,谷歌放出了更多的生成案例概览,其中不乏高清且精致的画面。

在影音领域,除了视频,谷歌还更新了图片生成模型Imagen3,官方提到,与此前的模型相比,Imagen3分散注意力的视觉伪影更少,细节逼真。谷歌还发布了一套名为MusicAISandbox的音乐AI工具,可以让人们从头开始创作新的器乐部分,以新的方式转换声音等等。

变革搜索

I/O大会之后,英伟达高级科学家JimFan发表观后感表示,谷歌做对了一件事,"他们终于开始认真努力将人工智能融入搜索框,"他认为,谷歌最强大的护城河是分销,"Gemini不必是最好的模型,就可以成为世界上使用最广泛的模型。"

谷歌首席执行官桑达尔·皮查伊(SundarPichai)在演讲中提到,Gemini带来的最令人兴奋的变革之一是在Google搜索中。"我们最大的投资和创新领域之一是我们的创始产品——搜索。"皮查伊回顾,25年前谷歌就创建了搜索,如今Gemini时代的搜索提升到了全新的水平。

谷歌搜索此次推出了AI概述(AIOverview)新功能,用户在搜索框输入问题,即可得到一个AI总结的答案,且能处理超长问题,如AI可以帮忙查找波士顿最好的瑜伽或普拉提工作室,并提供入门优惠详情以及步行所需时间,并附带课程标价,地图上的位置也能标记出来。

凭借Gemini的多模态功能,谷歌搜索还可以做到利用图片搜索产品和文字信息,能用"CircletoSecarch"功能圈出图片中的一部分去搜索。具体而言,谷歌推出了新功能AskPhotos,可以一键从图库中找到想要的照片和视频。

谷歌在演示中举例,假设在停车场缴费时,却想不起自己的车牌号。以往,用户可能需要翻找多年积累的照片来寻找车牌,但现在

本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持