ChatGPT问世半年多来,全球科技公司争相开发大模型,大模型走向开源的趋势几乎成为定局。而随着越来越多的大模型被开源,也将对目前处于行业领先地位的OpenAI形成压力。
此前,大模型的“主导权”集中在几家大型科技公司手中,开源社区为此在过去的几个月里强势反击,包括Meta的Llama2在内的项目试图挑战大型科技公司已经建立的整个商业模式。
而在国内,像阿里这样的大公司也加入了开源大军。上周,国内AI开发者社区“魔搭”(ModelScope)上架阿里巴巴的两款开源模型Qwen-7B和Qwen-7B-Chat,分别为阿里云通义千问的70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。
阿里云表示,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。
百川智能CEO王小川预计,未来80%的企业会用到开源的大模型,因为闭源很可能没有办法对产品做更好的适配,或者成本特别高,闭源可以给剩下的20%提供服务。“二者是在不同产品中互补的关系。”王小川说。
“开源军团”来势汹汹
今年4月,美国软件公司Databricks发布了开源模型Dolly2.0,成为业内首个开源、遵循指令的大模型,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。
随后,Meta公司在7月中旬发布了人工智能模型Llama2的开源商用版本,这对于大量的开发者而言,意味着大模型应用进入了“免费时代”,初创公司也能够以低廉的价格来创建类似ChatGPT这样的聊天机器人。
猎豹移动创始人、董事长傅盛在社交媒体上随即公开表示:“大模型不再高不可攀,平民化大模型时代已经到来!像我们这样的公司会笑醒在深夜。”
作为聊天机器人等人工智能工具等基础,大模型的开源将降低企业开发各自版本的ChatGPT。Meta将Llama2开源,意味着企业可以访问Llama2模型,并通过调优来创建自己的类似于ChatGPT或谷歌Bard聊天机器人这样的产品。
国内方面,企业也在加速。阿里云通义千问开源,开源模型主要为Qwen-7B和Qwen-7B-Chat两种。
其中,Qwen-7B是支持中、英等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型,已实现与人类认知对齐。开源代码支持对Qwen-7B和Qwen-7B-Chat的量化,支持用户在消费级显卡上部署和运行模型。用户既可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用Qwen-7B和Qwen-7B-Chat,
同时,阿里云透露,通义千问7B预训练模型在多个权威基准测评中表现出色,在英文能力测评基准MMLU上,通义千问7B模型得分超过一众7B、12B、13B主流开源模型,该基准包含57个学科的英文题目,考验人文、社科、理工等领域的综合知识和问题解决能力。在中文常识能力测评基准C-Eval上,通义千问在验证集和测试集中都获得高分,在数学解题能力评测GSM8K、代码能力评测HumanEval等基准上也有不俗表现。
澜舟科技创始人CEO周明对第一财经记者表示:“开源、闭源之争可能又要再度上演,Meta这些公司发布了可商用的水平也不错的开源模型,可能会对某些公司的闭源模型或者某些团队的’自研模型’产生很大的压力。”
在过去几年,科技巨头公司似乎能够垄断大型语言模型不断增长的市场。它们选择将模型闭源,筑牢自己的“护城河”,很少对外公开技术进展。
但随着大模型的竞争愈演愈烈,这些科技巨头已经显著感受到来自开源社区的压力。市场对于大模型的选择正在逐渐从“越大越好”转向“越便宜越好”、“越高效越好”以及“越可定制越好”。
一些分析师表示,开源模型可能会削弱ChatGPT的开发商OpenAI公司以及谷歌大模型当前的市场主导地位,OpenAI的GPT和谷歌Bard大模型向用户收取昂贵的费用。
由于闭源模型只有源代码所有者掌握代码修改的权力,其他人无法获取“底稿”,只能向软件开发商购买成品。
根据FastCompany预测,OpenAI今年收入有望达到2亿美元,这些收入包括向开发者提供API数据接口服务、聊天机器人订阅服务费等。而大模型一旦开源后,在版权限制范围内,任何人都可以公开获取模型源代码,并进行修改甚至重新开发。这意味着大模型开源后会吸引更多开发者,大模型的应用也将更加丰富。
例如,在Llama2宣布开源不久,人工智能初创公司StabilityAI就已火速微调出了一款叫做FreeWilly模型,并称其性能可与ChatGPT媲美。
大模型的“护城河”在哪?
谷歌最近泄露的一份内部文件表明,由于开源大模型的进步,大型科技公司的市场份额并不像看起来那么稳固。谷歌的文件称:“我们没有护城河,OpenAI也没有。”
随着大模型重点转向创建更大的模型,研究和创新的成本急剧上升。像GPT-3这样的模型需要数百万美元来训练和运行。因此,大模型的工作仅限于少数有足够经济实力的公司和与其相关的人工智能实验室。
大模型的关键“护城河”包括:训练所用的数据、模型权重以及训练和推理成本。大型科