【FOCUS】当ChatGPT4独领风骚、SamAltman人设如神、微软股价创下新高……蛰伏多时的谷歌周三(6日)终于以雷霆万钧之势,揭盅下一代AI大模型「王者」--Gemini1.0。主打「多模态(multimodal)模型」,文字理解功夫了得,更凭藉同门Youtube海量视频,练就图片、音频、视讯的跨模态(cross-model)分析、推理神技,预示AI竞赛下一焦点将从「知识力」晋级至「行动力」。
*主打「跨模态」,分析、推理、规划*
从Gamil的「帮我写信」,到Google地图的沉浸式街景,再到Google相册的魔法编辑,身为AI先驱的谷歌,自去年11月起就相当憋屈,皆因OpenAI旗下ChatGPT问世抢尽光芒。眼看ChatGPT4上月再下一城推出Turbo版,谷歌5月就预告的Gemini始终只闻楼梯响,直到昨日。
被谷歌首席执行长SundarPichai称为「我们迄今为止最强大、最通用模型」的Gemini,1.0版本分为三种尺寸:用于高度复杂任务的Ultra、用于大规模增强效能的Pro、用于行动装置应用程式的Nano。谷歌指,GeminiUltra在MMLU(大规模多任务语言理解)基准测试(覆盖57门专业学科)中,以90.0%得分击败GPT4的86.4%,且是首个超越人类专家的大模型。
但Gemini最让人惊艳的技能仍是「跨模态」,即同时识别文字、图片、视讯、语音,并进行分析、推理、规划。例如,当展示一段人身体后倾、舞动双臂动作的视频,Gemini会推理为这是模仿电影「Matrix」的子弹时间镜头;当输入「提供三个用两种颜色制作勾针作品的主意」,Gemini会规划出蓝黄耳朵的狗、黄色触手的蓝色水母、黄鼻子的蓝猫。
*初创融资方兴未艾,助升全球生产力*
伴随AI大模型的强大进化,通过提问获取精简资讯,输入文本获取摘要报告,提交指令撰写简历、创作故事等「知识力」技能比拼,将升级至「行动力」之争。
早前获亿万富翁、NBA球队班主MarkCuban垂青的初创公司Bot-it,就利用AI为每个人量身定制音乐会、餐厅、露营、限量运动鞋的自动预定、付款、取消功能。而公司「AutomationMadeEasy」,正正一语道出AI下半场「行动力」的精要。
看看4月成立的AI视讯生成工具PikaLabs,短短半年获得融资5500万美元;类似的还有允许用户自订3D角色、并可用于游戏、电影、电子商务的AI初创公司Character.ai,据报正获谷歌洽谈投资,估值超过50亿美元。此外,被视作OpenAI后继者的AdeptAI,旨在为人类建立浏览互联网、使用软件、指示AI工作等「最好的助手」,获得英伟达、微软、SV天使投资等大手投资。
据普华永道估算,到2030年,AI料可为全球经济贡献15.7万亿美元,其中6.6万亿来自生产力提高,另9.1万亿来自消费端效应。对打工者、创作者、创业者来说,务必仅记:未来取代你的不是AI,而是擅于运用AI的人。