开源Llama 2春风得意、ChatGPT惨遭嫌弃,OpenAI表示不服
时间:2023-07-26 00:00:00来自:CSDN(微信公众号)字号:T  T

既开源又免费的Llama2一经发布颇有席卷之势,成了最火爆的开源ChatGPT替代,国内外不少开发者及企业都跟风进行模型的研究和商业开发,比如这几天OpenAI传奇科学家AndrejKarpathy就用纯C语言打造了一个轻量版的Llama2模型。而反观被称为大模型天花板的GPT-4则很不如意,深陷智商下降漩涡。

ChatGPT什么时候不聪明了?自今年三月GPT-4发布后,已经有不少的开发者和用户在OpenAI论坛提到使用ChatGPT时会出现不连贯性、非自然语言、以及推理等问题。其核心症结众说纷纭,有学者怀疑是OpenAI的系统修改和升级导致,通过削弱运算性能从而实现降本增效。然而由于ChatGPT闭源的属性,我们很难确定其背后的真正原因。

OpenAI社区讨论GPT-4性能的帖子尤其热闹

围绕GPT智商下降的讨论在“HowisChatGPT'sBehaviorChangingOverTime?”论文的发布之下被推向了顶峰,来自斯坦福大学和加州大学伯克利分校的学者LingjiaoChen、MateiZaharia和JamesZou对3月和6月不同版本的GPT-3.5和GPT-4进行了任务测试,结果发现不同版本的结果出现显著的表现差异(漂移drifting)。

首先是程序员们最为关心的代码生成能力。即使在明确声明不要注释的前提下,新版GPT-3.5和GPT-4仍然添加了更多的非代码文本和注释,使回答变得繁杂冗长。同时,代码质量下降使得直接可执行代码生成的比例更低(GPT-4从3月的52%下降到6月的10%)。这对于程序员们而言,可能在用LeetCode刷题时,自己答对的概率比ChatGPT还能高不少。

而在解决数学问题方面,GPT-4识别质数的能力从3月份几乎全对下降到2.4%,而GPT-3.5的成功率暴涨至86.8%。作者怀疑GPT-3.5相比较GPT-4更好地遵循了链式思维指示(Chain-Of-Thought),而新版GPT-4可能会在推理过程思维断裂而出错。

在回答敏感问题方面,新版GPT-3.5较3月版更大胆,回答率从4%增加到8%。而新版GPT-4则更保守,从21%下降到5%。同时,GPT-4的生成字符长度从600多个下降到大约140个,在拒绝回答时更简洁,提供的解释也更短。GPT-3.5也发生了类似的现象。这表明新版ChatGPT的答案可能会更安全,但是也更怂、更不愿意解释。

最后的任务是视觉推理。新版GPT-4和GPT-3.5的整体性能较三个月前有小幅提升,但依旧不高:GPT-4的正确率为27.4%,GPT-3.5为12.2%。值得注意的是,尽管整体性能更好,但GPT-4在之前没有犯的错误反而在新版里出现了,凸显了对于关键应用漂移监测的必要性。

在论文中,作者并没有明确提及新版ChatGPT比较旧版性能有降级,仅仅是将观察到的漂移现象描述出来,并强调了持续评估LLM在生产应用程序中的行为的必要性,并建议用户和公司实施与上述四个任务类似的监控分析以保证其运行顺畅。

Zou:“我们不完全了解是什么导致了ChatGPT响应的这些变化,因为这些模型是不透明的。调整模型以提高其在某些领域的性能可能会产生意想不到的副作用,使其在其他任务上变得更糟。”

李飞飞的学生、英伟达资深AI科学家JimFan也表达了他对于这篇论文和ChatGPT“反向”升级的观点。他认为,OpenAI从3月到6月花了大部分精力做减负,导致了一些功能的损失。但同时,安全对齐(SafetyAlignment)使编程变得冗余而让开发者徒增烦恼,削减成本可能会影响模型性能。

OpenAI回应:GPT没有智商下降!面对如此多的讨论,OpenAI否定了ChatGPT性能倒退的说法。OpenAI产品副总裁PeterWelinder在一条推文中说:“我们并没有让GPT-4变得愚蠢。恰恰相反:我们使每个新版本都比前一个版本更智能。”他提出了一个猜想,“你用得越多,越能注意到以前没有看到的问题,”并鼓励大家把觉得GPT退化的截图发给他用以分析。

从OpenAI发布的信息来看,新版本只是每三月一次例行的更新,以保证开发者一直能使用最好的模型。但同时OpenAI也发现,每三月一次的更新过于频繁,即使有三个月的延期,开发者仍然来不及升级他们的应用。因此,OpenAI将最新的OpenAIAPI中对gpt-3.5-turbo-0301和gpt-4-0314模型的支持延长到一年后的2024年6月13日,并表示部分情况会遇到模型回归的问题,可以通过发送更详细的prompt来解决。

与此同时,OpenAI也在集中改进被社区反馈的问题。例如,OpenAI技术发言人LoganKilpatrick刚刚宣布新版ChatGPT被提问时将不再一直以“作为一个由OpenAI训练的大语言模型,得到下面的结论...”为开头,这对于开发者们而言,能够更直接地获得反馈,同时对于ChatGPT来说,也从一定程度上减少了系统负担。

开源才是答案?有趣的是,Chen等人对ChatGPT测试的论文与Llama2几乎同时发表,无论用途和用户,向所有人开放免费下载使用。“OSSLLM不会这么保密。我们可以作为一个社区严格版本化和跟踪回归、诊断和修复所有这些问题,”Fan在推文中提到。

自ChatGPT横空出世之后,人人都在呼唤、渴求它的开源,然而终究是石沉大海。哪怕是当

本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持