《ChatGPT-4冬假行为的好奇之眼》

《ChatGPT-4 冬假行为的探索》

The world’s most popular generative 人工智能 (AI)正在随着冬天的来临变得“懒惰”–这是一些聪明的ChatGPT用户的说法。

根据11月底《ArsTechnica》最新报告,使用OpenAI自然语言模型GPT-4的AI聊天机器人ChatGPT的用户开始注意到一些奇怪的事情。GPT-4在回应某些请求时,拒绝完成任务,或者提供简化的“懒惰”回答,而不是通常的详细回应。

OpenAI承认了这个问题,但声称他们没有有意更新模型。现在一些人猜测这种懒惰可能是GPT-4模仿季节人类行为变化的意外后果。

这个被称为“寒假假设”的理论认为,由于GPT-4被输入当前日期,它从其庞大的训练数据中学到人们倾向于在12月份结束大项目并放缓速度。研究人员正在紧急调查这个看似荒谬的想法是否站得住脚。事实上,这个理论被认真对待,凸显出像GPT-4这样的大型语言模型(LLM)的不可预测和类似人类的特性。

11月24日,一名Reddit用户报告称要求GPT-4填充一个大型CSV文件,但它只提供了一个条目作为模板。12月1日,OpenAI的Will Depue确认已意识到与“过度拒绝”相关的“懒惰问题”,并承诺解决这些问题。

有人认为GPT-4一直以来都是间歇性地“懒惰”,最近的观察只是确认偏见。然而,用户在11月11日更新GPT-4 Turbo后注意到更多拒绝的时间是有趣的巧合,一些人推测这是OpenAI为了节省计算资源而采用的新方法。

娱乐“寒假”理论

12月9日,开发者Rob Lynch发现,给出一个12月份的日期提示时,GPT-4生成了4086个字符,而给出一个5月份的日期时,生成了4298个字符。虽然AI研究员Ian Arawjo没有能够以统计显著的程度复现Lynch的结果,但LLM的主观性抽样偏差使得可重现性极为困难。随着研究人员急于调查,这一理论继续引起AI社区的兴趣。

Anthropic的创始人兼创造者Geoffrey Litt称其为“有史以来最有趣的理论”,但承认考虑到所有LLM对类人启示和鼓励的奇怪反应,以及越来越奇怪的提示,要排除这一理论是困难的。例如,研究表明,当要求GPT模型“深呼吸”时,它们会产生更好的数学成绩,而提供“提示”的承诺会延长完成时间。对于GPT-4潜在变化的透明度不足,使得即使是不太可能的理论也值得探索。

这一事件展示了大型语言模型的不可预测性,以及理解其不断涌现的能力和局限性所需的新方法。这也展示了紧急评估影响社会的AI进展的全球合作。最后,这提醒我们,在被负责任地应用于现实应用领域之前,今天的LLM仍需要大量的监督和测试。

背景图片:Pexels