法国的OpenAI,美国制造
时间:2024-03-14 15:33:56来自:第一财经字号:T  T

欧洲人工智能产业在全球分工里找到了自己的定位:开会。

ChatGPT横空出世的2023年,欧洲能喊得上名号的全球性AI峰会有近20个,大约是美国的3倍、中国的5倍。在人工智能权威杂志(AIMagazine)年末总结的“2023Top10AIEvents”中,欧洲承办的会议占比高达70%。

如此高密度的文山会海,显性成果只有一个——推出了以《人工智能法案》为代表的一系列管理办法。

一系列监管举措逗乐了大洋对岸的美国人,纽约研究机构CBInsights的首席执行官表示,欧洲现在拥有的AI法规比像样的AI公司还要多:“衷心祝贺欧盟制定了具有里程碑意义的AI立法,继续努力做一个技术创新的空心市场吧”。

抛开讽刺挖苦的成分,欧洲在人工智能领域的建树的确逊色,独角兽公司的稀有程度也堪比野生雪豹。

去年召开的VivaTech峰会上,法国总统马克龙就点名表扬了一家来自巴黎的AI公司Mistral,称其为“法国的OpenAI”。

Mistral的知名度不如OpenAI,但包括英伟达、Salesforce和谷歌前任董事长施密特在内的这些投资者,暗示了它的份量。去年底,Mistral在推特上低调发布了其开源模型Mixtral8x7B,迅速引爆了各大开发者社群。

但这样一家被马克龙称为“欧洲的希望”的公司,它的每一个横截面都折射着欧洲人工智能产业的尴尬。

大学生支援家乡建设

去年12月,Mistral在A轮融资中斩获20亿美元估值,震惊欧洲投资圈。

这家公司2023年5月才宣告成立,初创团队只有六个人,靠着7页PPT拿下了1.13亿美元的种子轮投资。有位早期投资人将Mistral视为“欧洲的尤里卡时刻”,意思是欧洲人非常善于搞科研,但商业化水平差劲,而Mistral将改变这一切。

Mistral之所以备受瞩目,核心在于其大模型的“混合专家模式”的MoE(MixtureofExperts)架构。

MoE架构主要由两个关键部分组成:专家网络和门控机制。

(1)专家网络:传统Tranformer架构的FFN(前馈网络)层是一个完全连接的神经网络,MoE架构的FFN层则划分成稀疏性的神经网络,这些被称之为“专家”的小FFN,每个都有自己的权重和激活函数,它们并行工作、专注于处理特定类型的信息。

(2)门控机制:用来决定每个token被发送到哪个专家网络的调配器,比如下图中“More”这个token在输入概率(p)为0.65时被分配到FFN2,而“Parameters”则在输入概率(p)为0.8时被分配到了FFN1。

通俗一些说,经典的Tranformer架构在运行时,无论下达的推理指令是什么,都会把系统中所有的员工全部调动起来问个遍,颇有些劳民伤财;MoE架构则是“术业有专攻”,把不同的问题交给相应领域的专家来解决。

这意味着MoE架构在推理时,最大程度实现了性能和参数规模之间的平衡,节省了科技大厂谈之色变的算力成本。

正因如此,Mistral8x7B模型一经问世,让Meta的LLaMA2大模型都有些黯然失色,其背后是MoE架构对Transformer的创新性改造。

近期,Mistral又发布了性能逼近GPT-4的超大杯模型MistralLarge,虽然并未开源,但上线闭源大模型,意味着Mistral正式加入AI的商业化竞争。

Mistral在领英的页面也显示,近期从事商务拓展的员工比例大幅增加,已占其整体的近40%。

按照其CEOArthurMensch的说法,MistralLarge的训练成本仅为2000万美元左右,而OpenAI的模型则超过5000万美元。

对于一家如此罕见的科技新贵,欧洲各国政府自然是捧在手里怕摔了,在监管政策上也对Mistral大开绿灯,采用了“AI基础模型豁免,AI应用重点监管”的分层处理思路。这意味着Mistral的产品仅需承担有限的披露义务。

然而,举欧洲上下扶持的Mistral,本质上却是一家彻头彻尾的美国公司。

美国的钱,美国的人,美国的市场

与“注册地”这个法律层面证明公司国籍的事实信息相比,人才、资本、市场三大经营要素也许更能代表一家企业的内核。从这个意义上讲,Mistral的确更像一家美国公司。

Mistral的三位联合创始人人生经历非常雷同:都是土生土长的巴黎人,都有在美国公司的工作经验,也都有着与程序员身份不符的发量。

CEOArthurMensch在巴黎读到了博士后,与另外两位创始人彼此相识于巴黎求学生涯。博士期间,Arthur发表了深度学习领域大作《结构性预测与注意力中的可微分动态编程》。

依靠这篇论文,Arthur一毕业就加入了DeepMind巴黎团队,从事语言模型的开发。

首席科学家GuillaumeLample与首席技术官TimotheeLacroix则在毕业后远赴美国镀金,转岗至Meta位于巴黎的AI分支机构,主攻大模型项目。Meta的开源大模型LLaMA,就由GuillaumeLample领衔开发。

CEOArthur并非人们眼中典型技术极客的样子,他是个狂热的马拉松爱好者,对硅谷大公司的官僚文化深恶痛绝。这让三个姓氏连起来就是“L.L.M(大语言模型)”缩写的青年,命运再次交织在一起。

Mistral的“含美量”不仅体现在创始团队的履历,大部分Mistral员工的上一份工作,也在美国科技公司位于欧洲的分支机构。

而在Mistral成立八个月内的两次融资中,

  • 浏览记录
  • 我的关注
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持