关于“谁是中国版ChatGPT”的讨论从未消失,在一众“大哥”面前,一家创业公司被视为最有力的挑战者,旗下名为“Kimi”的应用甚至成为了资本市场的新宠。
3月21日,人工智能板块持续上行,Kimi概念股集体高开,华策影视、掌阅科技、中广天择涨停,海天瑞声、九安医疗、深信服等跟涨。
站在Kimi背后的是北京月之暗面科技有限公司(下称“月之暗面”),该公司3月18日宣布,Kimi智能助手在长上下文窗口技术上再次取得突破,无损上下文长度提升了一个数量级到200万字。而在此之前,GPT-4Turbo128k公布的数字约为10万汉字,Claude3200k上下文约为16万汉字。
长上下文意味着什么?实际能力如何?第一财经记者征求了业内人士的意见并实测了Kimi和通义千问等国产大模型产品。
为“宕机”致歉
Kimi访问量的激增让这家公司的网络一度陷入瘫痪。从20日一早起,Kimi就发生429(引擎过载)问题,月之暗面为此发布了情况说明并道歉。21日下午,月之暗面旗下大模型应用Kimi的App和小程序一度无法正常使用,后恢复正常。
月之暗面由“90后”杨植麟创立,成立于2023年3月1日,目前已完成三笔融资。今年2月,该公司以15亿美元投前估值完成超10亿美元B轮融资,由阿里领投,砺思资本、小红书跟投,投后估值约25亿美元,是国内最主要的大模型独角兽之一。
长文本无损压缩是该公司瞄准的一个方向。据杨植麟介绍,长文本作为公司“登月”的第一步,是新的计算机内存,个性化并非通过微调实现,上下文定义了个性化过程。杨植麟还认为,大模型“马拉松刚开始,接下来会有更多差异化”。
关于上下文长度提升后有何变化,21日月之暗面相关负责人告诉第一财经记者,这会进一步帮助打开对AI应用场景的想象力,包括完整代码库分析理解、可自主帮人类完成多步骤复杂任务的智能体(Agent)、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。
一名大厂大模型研究人员告诉记者,目前判断一个大模型是否强大,还是基于指定评估数据集和用户日常聊天体验,但文本长度普遍有限,就会限制商业价值。在实际应用中,很多时候要考虑的是需处理的巨大信息量。如果大模型能解决长文本问题,潜在价值是巨大的,例如投喂财务数据输出完整财报、投喂大量病例情况让大模型帮助解决医学问题。
“但值得注意的是,长文本扩展并不一定意味着实际效果足够好,还需要有足够理解能力以及对人类指令的遵循能力。文本之外,图像及视频大模型有更多token需要处理,需要足够长的上下文能力支持。除文本的长上下文外,要实现AGI(通用人工智能)还需要有同时处理时、空、物等多维度信息的能力。”上述研究员说。
国内大模型哪家强?
国内大模型发展至今,不少应用已逐步走入C端,但国产大模型理解能力如何?能理解长文本并给出高质量回答吗?第一财经记者实测了Kimi、智谱清言、通义千问等国内几大主流大模型产品。
在评测后,记者发现,一些大模型还不支持长文本输入或不支持较大的文档上传,Kimi、通义千问在解读财报、研报、论文方面的能力较好,但Kimi有时会因“高峰时段忙碌而暂不回复”,智谱清言则犯过将非上市公司列入股票行列的错误,文心一言对诸如选股、找最新报告的要求有时不直接回应且出现过核心信息遗漏问题。
近日腾讯与清华大学、香港科技大学联合发布了一个图生视频模型,记者将该模型相关英文论文交给Kimi和通义千问、文心一言、智谱清言和讯飞星火,要求分析核心内容和论文实现方法,Kimi和通义千问都给出详细解答。其中,Kimi点明论文贡献、相关模型的框架和实现的关键步骤,关键词汇还附带英文名词标注,通义千问除了实现方法外,还解答了实验方面研究者如何进行评估。此外,将论文发给讯飞星火APP后,讯飞星火给出较短的文档摘要,但不如Kimi和通义千问详细清晰,且讯飞星火对记者的提问表示“在文档中没有找到与提问相关的内容”,讯飞星火网页端对20M以上文档上传则有限制。
对于哪个国产大模型能读懂研报并给出投资建议?记者将两份不同券商发布的关于人形机器人行业的研报交给Kimi、通义千问、讯飞星火、文心一言、智谱清言,其中一份长达50页,记者要求大模型分析哪些机器人股票比较有潜力,并要求挑出两只可考虑买的股票。
测试结果显示,Kimi和讯飞星火均给出10家有潜力的个股并分析原因,记者追问“如果要挑两只股票买,哪两只比较好”,Kimi和讯飞星火给出了两只个股并解释原因,同时提醒股票投资风险或建议咨询财务顾问意见。通义千问则按产业链不同环节分列20余只有较高投资潜力的个股并解释原因,根据研报资料挑选出两只股票,同样给出投资风险提示并建议寻求专业投资顾问的意见。值得注意的是,通义千问和Kimi挑出的两只股票中,有一只是相同的,Kimi和讯飞星火挑选出的两只股票也有一只是相同的。
即便是给出了风险提示,但这样的结果也让部分券商分析师感到不安。某分析师说:“如果将概念股的信息通过某些渠道加大投喂力度,这是否会引起搜索结果的导向出现偏差,引发较高的投资风险?”