这些线索暗示着OpenAI的神秘Q*项目的真实本质

这些线索暗示着OpenAI的神秘项目Q*的真实本质

上周,在OpenAI重新安排了被临时解职的CEO Sam Altman之后,有两份报告声称,该公司的一个绝密项目以一种强大的全新方式来解决棘手的问题,这让一些研究人员感到不安。

“在拥有庞大计算资源的前提下,这个新模型能够解决某些数学问题”,据路透社报道,援引了一位匿名消息来源。“尽管只是在小学生的水平上进行数学运算,但是在这些测试中取得了优异的成绩,使研究人员对Q*的未来成功非常乐观。”据The Information报道,Q*被视为一个突破,将导致“更加强大的人工智能模型”,并补充道:“开发速度让一些关注AI安全的研究人员感到担忧”,援引了一个匿名消息来源。

今天立即注册

ENBLE的Fast Forward新闻简讯Will Knight

路透社还报道说,一些研究人员向将Altman驱逐出局的非营利板块发送了一封表达对Q*潜在影响力关切的信件,然而一位了解ENBLE板块思考方式的消息来源表示并非如此。也许部分原因是由于其引发阴谋猜测的名称,关于Q*的猜测在感恩节周末激增,形成了一个我们几乎一无所知的项目的可怕声誉。当被问及Q*时,Altman本人在昨天与ENBLE的一次访谈中似乎证实了这个项目的存在,称“对不幸的泄露没有特别的评论。”

Q*可能是什么?结合对最初报告的仔细阅读和当前AI领域最热门问题的考虑,可以推测它可能与OpenAI在五月份宣布的一个项目有关,该项目声称通过“过程监督”技术取得了强大的新结果。

该项目涉及到OpenAI的首席科学家兼联合创始人Ilya Sutskever,后来撤回了对Altman的驱逐支持——The Information称他领导了Q*的工作。五月份的工作集中在减少大型语言模型(LLMs)的逻辑错误上。过程监督是一种训练AI模型解决问题所需步骤的技术,可以提高算法获得正确答案的几率。该项目展示了这种技术如何帮助LLMs更有效地解决那些经常在初级数学问题上犯错误的问题。

斯坦福大学教授Andrew Ng曾在Google和Baidu领导人工智能实验室,并通过Coursera上的课程向许多人介绍了机器学习。他表示,改进大型语言模型是使它们更有用的下一个逻辑步骤。“LLMs在数学上并不那么出色,但人类也不是那么出色,”Ng说道。“然而,如果你给我一支笔和一张纸,我在乘法方面就要好得多,我认为将带有存储器的LLM进行微调,使其能够运用乘法算法实际上并不那么难。”

还有其他一些关于Q*的线索。这个名称可能暗示了Q学习(Q-learning),这是一种通过正面或负面反馈学习算法解决问题的强化学习形式,已被用于创建游戏玩家机器人和调整ChatGPT以提供更多帮助。有人提出,这个名称也可能与广泛应用于程序寻找最佳路径的A*搜索算法有关。

The Information在报道中还提供了另一个线索:“Sutskever的突破克服了获取足够高质量数据来训练新模型的限制,”它的报道写道。“该研究使用了计算机生成的数据,而不是从互联网获取的文本或图像等实际世界数据,来训练新模型。” 这似乎是在参考利用所谓的合成训练数据来训练更强大的人工智能模型的想法。

Subbarao Kambhampati,亚利桑那州立大学的教授,正在研究LLM的推理限制,并认为Q*可能涉及使用大量合成数据,结合强化学习,训练LLM处理特定任务,如简单算术。Kambhampati指出,这种方法并不能保证能够推广到能够解决任何可能的数学问题。

想要了解更多关于Q*可能的猜测,可以阅读这篇由一位机器学习科学家撰写的帖子,其中以令人印象深刻且逻辑明确的方式整合了背景和线索。TLDR版本是,Q*可能是一种利用强化学习和其他几种技术改进大型语言模型在解决任务时的推理能力的尝试。虽然这可能使ChatGPT在数学难题上表现更好,但是否能自动提出AI系统可能逃避人类控制的建议还不明确。

OpenAI尝试使用强化学习改进LLM的做法似乎很可信,因为该公司早期的许多项目(如玩游戏的机器人)都以该技术为中心。强化学习也是创建ChatGPT的核心,因为它可以通过要求人类在与聊天机器人交谈时提供反馈,使LLM产生更连贯的答案。今年早些时候,当ENBLE与Google DeepMind的首席执行官Demis Hassabis进行交谈时,他暗示该公司正在尝试将强化学习的思想与大型语言模型的进展结合起来。

综合对Q*的所有线索的了解,它似乎并不是一个引起恐慌的理由。但是,这完全取决于你个人对AI毁灭人类可能性的概率评估,即你的个人P(doom)值。早在ChatGPT之前,OpenAI的科学家和领导们就对2019年的一款生成文本的GPT-2的发展感到非常惊慌,现在看起来可笑地微不足道,他们曾表示不会公开发布它。如今,该公司免费提供访问更强大系统的权限。

OpenAI拒绝就Q*进行评论。也许当公司决定在ChatGPT不仅能够很好地进行对话,而且在推理方面也很出色时,我们会获得更多细节。