这就是人们说GPT-4变懒的原因 | ENBLE

人们当GPT-4变得懒惰是什么原因? | ENBLE

OpenAI及其技术在11月的大部分时间里都卷入了丑闻风暴。从CEO Sam Altman迅速的解雇和再雇用,到停止提供ChatGPT Plus付费订阅服务的奇怪案例,OpenAI在过去几周一直让人们关注着人工智能行业的新闻。

现在,AI爱好者们再次翻旧账,不禁让许多人怀疑GPT-4是否正变得“懒散”,因为这个语言模型在不断训练中。许多使用它来加速更复杂任务的人们已经开始在X上(前身为Twitter)抱怨这些变化。

Rohit Krishnan在X上详细描述了他在使用GPT-4时遇到的各种失误,这个语言模型就是ChatGPT Plus背后的模型,而ChatGPT Plus是ChatGPT的付费版本。他解释说,这个聊天机器人拒绝了他的多个查询,或者给出了他请求的截断版本,即使以前它能够提供详细的回应。他还指出,这个语言模型在需要代码解释器的提示时,会使用除了它被指示使用的工具之外的其他工具,比如Dall-E。Krishnan还讽刺性地补充说“错误分析”是这个语言模型说“从键盘离开,几个小时后回来”的方式。

Matt Wensing在X上详细说明了他的实验,他要求ChatGPT Plus列出从现在到2024年5月5日的日期,但聊天机器人需要额外的信息,比如这些日期之间的周数,才能完成初始任务。

沃顿商学院教授Ethan Mollick也分享了他对GPT-4的观察,他将七月份他运行的代码解释器与最近的查询进行了比较。他得出结论说,GPT-4仍然有知识,但他指出GPT-4向他解释如何修复代码,而非实际修复代码。换句话说,他需要自己做他要求GPT-4做的工作。虽然Mollick并不打算批评这个语言模型,但他的观察与其他人所描述的GPT-4的“敷衍回答”一致。

ChatGPT被认为会为它不知道的信息编造答案,但这些错误似乎远远超出了AI聊天机器人常见的失误。GPT-4在三月份推出,但早在七月份就有报道称这个语言模型开始变得“笨拙”。与斯坦福大学和加州大学伯克利分校合作的一项研究观察到,在仅仅三月到六月间,GPT-4的准确率从97.6%下降到了2.4%。研究详细说明了ChatGPT的付费版本无法对数学方程提供正确答案和详细解释,而仍在运行较旧的GPT 3.5模型的非付费版本却能给出正确答案和对数学过程的详细解释。

在那段时间里,OpenAI产品副总裁Peter Welinder暗示,大量用户可能会经历一个心理现象,即随着时间推移,答案的质量可能会出现下降,而实际上语言模型正变得更有效率。

根据Mollick的说法,目前的问题可能同样是暂时的,可能是由于系统超载或提示风格的改变而没有通知给用户。值得注意的是,OpenAI在ChatGPT Plus首次开发者大会上引入了许多新功能后,因服务引起的兴趣激增,他们提到了系统超载作为停止注册ChatGPT Plus的原因。ChatGPT Plus仍然有等待列表。该教授还补充说,移动端的ChatGPT使用了不同的提示风格,其结果是“更短且更直接的答案”。

Yacine在X上详细阐述了最新的GPT-4模型因指令不遵循而导致的不可靠性问题,这使他们回到了传统的编码方式,并表示他们计划创建一个本地的代码LLM来恢复对模型参数的控制。其他用户在这个语言模型衰退之际提到了选择开源选项。

同样地,Reddit用户Mindless-Ad8595 解释说,对于GPT-4的最新更新使其变得过于聪明而自扰。“它没有预定义的‘路径’来指导其行为,使其非常灵活,但默认状态下也有些无所适从,”他说。

该程序员建议用户创建专门针对任务或应用程序进行专业化的自定义GPT,以提高模型输出的效率。他没有为用户提供要留在OpenAI生态系统内的实际解决方案。

应用开发人员Nick Dobos 分享了他的经历,他指出当他要求ChatGPT在SwiftUI中编写乒乓时,他发现代码中有各种占位符和待办事项。他还补充说,即使被指示进行其他操作,聊天机器人也会忽略命令,继续将这些占位符和待办事项插入代码。几位X用户确认了他们自己的代码示例中出现类似情况的经历。Dobos的帖子引起了一位OpenAI员工的注意,他表示将向公司的开发团队转交这些示例以进行修复,并承诺在此期间共享任何更新。

总体而言,目前还没有明确的解释GPT-4为什么出现了一些问题。在线讨论的用户提出了许多想法。这些想法包括OpenAI合并模型、GPT-4和GPT-4 Turbo同时运行导致服务器过载,以及公司试图通过限制结果来节省资金等等。

众所周知,OpenAI是一个非常昂贵的运营。2023年4月,研究人员指出,维持ChatGPT运行每天需要消耗700,000美元 ,或者每次查询36美分。当时行业分析师详细说明,OpenAI将不得不扩大其GPU机群的规模,以维持其商业性能,这需要为ChatGPT的处理提供支持,同时还要提供其所有合作伙伴的计算能力。

在等待GPT-4的性能稳定下来的同时,用户在X上交换了几个俏皮话,来轻松一下情况。

“接下来它就可能请病假了,”Southrye说。