谷歌打响OpenAI反击战,最新大语言模型PaLM 2直指GPT-4痛点
时间:2023-05-11 00:00:00来自:界面字号:T  T

北京时间5月11日凌晨1点,GoogleI/O2023开发者大会如期而至。在美国加州山景城总部,谷歌在多项产品和服务方面推出了重磅更新,涉及谷歌地图、人工智能、搜索、安卓、谷歌云和Pixel等多个领域。其中,谷歌在巴德和生成式AI方面的最新进展备受外界关注。

PaLM2打响GPT-4反击战

谷歌CEO皮查伊在发布会现场表示,此次谷歌发布的PaLM2是目前最先进的语言模型,也是其PaLM语言模型的第二个版本。相比PaLM1,新版本具有升级的多语言、推理和编码能力,将为25种谷歌产品提供支持。

在多语言能力方面,PaLM2进行了更多训练,文本横跨100多种语言,很大程度上提高了其理解、生成和翻译细微差异化文本的能力,解决了对成语、诗歌和谜语这类文本的理解能力,这种文本的处理门槛较高。此外,PaLM2能够通过很高级别的语言能力考试。

推理能力方面,由于PaLM2在包含科学论文和数学表达式的网页上进行了训练,因此具备了在逻辑、常识推理和数学方面的改进能力。

编码能力上,PaLM2支持20多种编程语言。由于它是在大量公开可用的源代码数据集上进行预训练,因而擅长Python和JavaScript等流行编程语言,同时也可进行Prolog、Fortran和Verilog等小众语言的编程。

据皮查伊介绍,PaLM2将拥有从小到大四种尺寸,分别为Gecko、Otter、Bison和Unicorn。

Gecko:最小尺寸,可以在移动设备上运行,速度足够快,即使离线状态也可以进行交互应用。

Otter:中等大小模型,适合各种任务,包括自然语言处理、机器翻译和代码生成。

Bison:更大的模型,可以处理更复杂任务,例如生成逼真的图像和视频。

Unicorn:最大尺寸,可处理最复杂的任务,比如编写创意文本,如诗歌、代码、脚本、音乐作品、电子邮件、信件等。

不同尺寸模型带来的功能性意味着PaLM2可以进行微调,以多种方式支持整类产品,帮助到更多用户。

PaLM2的多模态能力体现在能看懂和生成音频和视频内容之上,皮查伊在现场对这些能力进行了少量展示。他用谷歌内部基于PaLM2针对医疗领域微调而成的Med-PaLM2举例,后者是第一个在医学执照考试上表现出专家水平的专用语言模型,已经可以在医院看片室帮助放射科医生解读图像,可以根据X光片分析病人的状况,此后还将用于更多领域。

皮查伊指出,虽然PaLM2的能力已经很强,但只有在对特定领域的知识进行微调时,才能真正发挥作用。与基础模型相比,微调帮助Med-PaLM2实现了将近十倍的精确度,从而在医学问题回答上能做到接近临床专家的表现。

“我们还在努力增加Med-PaLM2的功能,使其能够综合来自医学影像的信息,如乳腺X射线。”皮查伊强调。

与之类似,谷歌还基于PaLM2训练了一个针对安全领域的垂直模型Sec-PaLM,它可以利用AI来检测恶意脚本,帮助安全专家理解和解决各类攻击和威胁问题。

据谷歌介绍,PaLM2的用户既包括世界各地的消费者,也包括开发者和各类规模的企业。

皮查伊还宣布,谷歌已经在着手开发下一代多模态大模型Gemini,这一模型在工具和API集成方面非常高效,并在记忆力和规划能力上拥有相当创新突破,目前仍在训练之中。“Gemini展示出了相较其他模型前所未见的多模态能力。一旦经过微调和严格安全测试,也将拥有各种尺寸和功能,可以部署在不同的产品、应用和设备上,使每个人受益。”皮查伊表示。

从PaLM2到Gemini,谷歌本次找准了GPT-4的痛点下手,用多模态能力直击靶心,又用专用领域模型拉开差距,可以说打了一个漂亮的反击战。

谷歌研究部副总裁左宾·盖若曼尼指出了一个值得关注的问题,即模型并不是“越大越好”那么简单,研究的创造性才是建立伟大模型的关键。他表示,谷歌近期在构建和训练模型方面取得的进展使之了解到如何真正释放多模态能力,如何比以往更有效地构建模型。此后,谷歌会致力于那些为人们的日常生活带来真正好处的模型构建。

谷歌在本次I/O大会上并没有给出PaLM2的更多技术细节,这也与OpenAI对待ChatGPT和GPT-4的态度相似,但谷歌的上述表态与其内部坚持的技术路线一脉相承。虽然自去年年底开始,谷歌就因为ChatGPT横空出世陷入极为被动的局面,但谷歌实际上早于OpenAI看到了超大规模语言模型的必要性,并坚持在稀疏模型架构上做了深入探索。在DeepMind与谷歌分治之前,其语言模型麻雀就走上了小模型参数打败精调的道路,而与谷歌合兵一处之后,势必在思路上对PaLM2也做出了相当贡献。

皮查伊也强调,PaLM2的成果建立在谷歌大脑和DeepMind这两个世界级研究团队所取得的进展之上。

Bard一雪前耻

在I/O大会上,另一个为世界瞩目的进展来自此前折戟的Bard。

谷歌宣布了Bard的多项功能更新,总体来看可谓是针对BingChat新晋更新的重量级回应。首先是与图像配合的多模态查询功能,用户可以使用图像向Bard提问,也可以让Bard使用图像内容向用户进行回应。

如果用户想查询关于某个旅游目的地的信息,Bard的表现像一个大众点评,可以向用户展示该处目的地附近的所有热门

本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持