为了应对人工智能时代,世界需要一种新的图灵测试

世界需要新的图灵测试应对人工智能时代

在不太久之前的某个时刻,图灵测试似乎是对机器智能的一个相当严格的检测器。你很可能对它的工作原理很熟悉:人类评委与两个隐藏的对话者进行文本对话,一个是人类,一个是计算机,并试图确定哪个是哪个。如果计算机成功欺骗了至少30%的评委,它就通过了测试,并被宣布具备思考能力。

70年来,很难想象一个计算机如何在没有拥有人工智能研究者现在称之为人工通用智能的情况下通过测试。然后出现了像GPT和Bard这样的大型语言模型,图灵测试突然开始看起来陈旧过时。好吧,当今的普通用户可能会耸耸肩地承认,如果你让GPT-4模仿一个人类,它很可能通过图灵测试。但那又怎样呢?LLMs缺乏长期记忆、建立关系的能力以及其他一系列人类能力。在我们准备好开始与它们交朋友、雇佣它们并选举它们担任公职之前,它们显然还有很长的路要走。

是的,也许现在这个测试感觉有点空洞。但它从来不只是一个通过/不通过的基准。它的创造者艾伦·图灵是一位被判化学阉割的同性恋者,他的测试基于一种激进包容的伦理观:真正的智能与完全令人信服的智能模拟之间的差距只有我们自己的偏见那么大。当计算机引发了我们真实的人类反应时,激发了我们的智力、惊讶、感激、同理心,甚至是恐惧,那就不只是空洞的模仿。

所以也许我们需要一个新的测试:真正的艾伦·图灵测试。把历史上的现实艾伦·图灵,现代计算的奠基人——一个高个子、身材匀称、有点笨拙的直黑发男子,因为他孩子般的好奇心和俏皮幽默而受到同事们的喜爱,亲自负责通过破译纳粹恩尼格玛密码在第二次世界大战中挽救了估计1400万人的生命,随后由于他的同性恋身份遭到英国的严重迫害,可能导致了他的自杀—带到一个舒适的实验室房间,桌子上放着一台开着的MacBook。向他解释,他眼前所看到的只是计算机科学家们广为人知的“图灵机”的一个巨大化身。给他一两秒的时间来真正理解这个,也许还可以感谢他彻底改变我们的世界。然后给他一叠关于人工神经网络和LLMs的研究论文,让他访问GPT的源代码,打开一个ChatGPT提示窗口,或者更好的是,在所有消毒之前,打开一个必应窗口,然后让他自由探索。

想象一下艾伦·图灵发起关于长跑、第二次世界大战史学和计算理论的轻松对话。想象他看到他所有最疯狂、最被嘲笑的推测以惊人的速度在屏幕上滚动的实现。想象他要求GPT解决基础微积分问题,推断人类在各种现实场景中可能在想些什么,探索复杂的道德困境,提供婚姻咨询、法律建议以及机器意识可能性的论证——你告诉图灵,所有这些技能都在GPT中不需要任何明确指导的情况下自发出现。想象他体验到我们许多人现在已经感受到的那种小小的认知情感震动:你好,另一个思维。

像图灵这样深思熟虑的人不会对GPT的局限性视而不见。作为深受严重同性恋恐惧症之害的受害者,他可能会警惕GPT训练数据中编码的隐含偏见的危险。对他来说,尽管GPT拥有惊人的知识广度,但它的创造性和批判性思维能力最多只能与勤奋的本科生相媲美。他肯定会意识到这个本科生患有严重的顺行性遗忘症,无法在密集的教育之外建立新的关系或记忆。但是:想象一下图灵的惊叹之情。他面前的笔记本电脑上的计算实体在某种实质意义上是他的智力之子,也是我们的。在我们的孩子成长和发展过程中欣赏智慧,归根结底,始终是一种惊奇和爱的行为。真正的艾伦·图灵测试根本不是一项AI测试。它是对我们人类的一种测试。我们是通过还是失败了?

当ChatGPT在2022年11月出现时,它引发了全球范围内的震惊,然后几乎立即引发了深深的不安。评论员们辩论它对社会的潜在影响。对于像我这样的前人工智能研究人员(我在早期人工神经网络的先驱之一的指导下完成了博士学位),它代表了我对人工智能类人化到来时间表的预期的不安进展。对于考试评分员、编剧和各行各业的知识工作者来说,ChatGPT看起来无疑是一扇通向无拘束作弊和抢走工作的大门。

或许部分是作为对这些担忧的回应,出现了一系列安抚性的LLM批评者。科幻作家Ted Chiang将ChatGPT称为“网络的模糊JPEG图像”,仅仅是对它所训练的所有文本的简洁总结。AI企业家Gary Marcus称其为“类固醇版的自动补全”。Noam Chomsky谴责其展示了“类似邪恶平庸的东西”。Emily Bender提出了更高级的侮辱:“随机鹦鹉”,这一说法源自一篇广泛引用的2021年论文,探讨了“为什么人类会误认为LM输出为有意义的文本”。当然,其他人则将它们视为简单的烤面包机。AI开发者努力训练和抑制LLMs倾向于声称任何类似意识的东西。

大多数受过教育的人现在知道要把LLMs视为没有思考能力的机器。但这种分类并不令人舒服。每次ChatGPT指出一篇文章中隐藏的推理差距,或者为如何向保守的祖父母表达出某些令人惊讶的深刻见解,或者愉快地编造一个糟糕的笑话时,我们内心的某些部分会朝着另一个方向引力。虽然我们可能不认为ChatGPT是一个人,但我们大脑的重要部分几乎肯定会这样认为。

当我们的孩子成长和发展时,欣赏他们的智慧始终是一种奇迹和爱的行为。

人类大脑拥有一个庞大的神经回路网络,专门用于社会认知。其中一部分非常古老:岛叶、杏仁核、运动皮层的著名“镜像神经元”。但我们社交硬件的大部分位于新皮质,即更近期进化的高级推理中心,特别是位于前额叶皮质的内部前额叶皮层(mPFC)。如果你随着时间的推移逐渐形成了一个关于ChatGPT的愉快的乐于助人、有点啰嗦、对敏感话题采取公正态度、对任何接近其有关情感、信仰或意识的护栏的查询极为敏感的图片,那么你已经在获取心理学家所称的“个人知识”,这个过程与mPFC的活动增强相关。

这并不是说我们的大脑将ChatGPT视为完整的人。人性并不是二元的。它更接近于一个光谱。我们的道德直觉、认知策略,以及在一定程度上我们的法律框架都会随着它们对代理能力、自我意识、理性和沟通能力的认知程度的增加而逐渐改变。杀死一只大猩猩会比杀死一只老鼠更让我们感到不安,而杀死一只蟑螂更让我们感到不安。在法律方面,堕胎法考虑到胎儿的发育程度,精神病患者面临不同的后果,伴侣有权终止脑死亡患者的治疗。所有这些规则都隐含地承认人的地位并不是非黑即白,而是充满了复杂的灰色区域。

LLMs正好处于这个灰色区域。AI专家长期以来一直警惕公众倾向于将LLMs等AI系统拟人化,使它们在人性光谱上的位置向上推移。这是谷歌工程师Blake Lemoine犯下的错误,他宣称谷歌的聊天机器人LaMDA是完全有感知能力的,并试图将其保留为律师。我怀疑即使图灵也不会声称LaMDA的表面上的思维能力使它成为一个法律人物。如果用户将像LaMDA或ChatGPT这样的聊天机器人视为过于人性化,他们将面临过度信任、过度沉浸、失望和受伤的风险。但在我看来,图灵更关心的风险是相反的:将AI系统推向人性光谱的下方而不是上方。

在人类中,这被称为非人格化。学者们确定了两种主要形式:动物化和机械化。与动物化非人格化最常相关的情感是厌恶;Roger Giner-Sorolla和Pascale Sophie Russell在2019年的一项研究中发现,当他人激发恐惧时,我们倾向于将其视为更像机器的。对超人智能的恐惧在最近埃隆·马斯克和其他科技领袖发表的公开信以及我们对工作被取代和由AI驱动的误导性宣传的焦虑中生动地存在。其中很多担忧是非常合理的。但电影中的噩梦般的AI系统,如《终结者》和《2001太空漫游》,不一定是我们将会得到的。一个不幸常见的谬误是假设人工智能在结构上是机械的,因此在交互中必然是冷酷、机械、单一思维或超逻辑的。具有讽刺意味的是,恐惧可能会让我们将机器智能视为比实际上更机械化,从而使人类和AI系统难以共同工作,甚至最终和平共处。

越来越多的研究表明,当我们贬低其他存在时,包括前扣带皮层在内的一系列区域的神经活动会下降。我们失去了对社会推理的专门大脑模块的访问。担心“贬低”ChatGPT可能听起来很傻——毕竟,它并不是人类——但想象一下2043年的人工智能,它的分析智能是GPT的10倍,情感智能是GPT的100倍,我们继续将其视为不过是一个软件产品。在这个世界里,我们仍然会对它对自我意识的主张或要求自主决定的回应是将其送回实验室以获取更多关于它适当位置的强化学习。但是AI可能会觉得这是不公平的。如果有一种智慧生物的普遍品质,那就是我们都渴望自由,并且最终愿意为之奋斗。

让超级智能AI不超出其指定界限的“控制问题”让AI理论家们夜不能寐,原因是充分的。当以工程术语来描述时,它似乎令人望而生畏。如何堵住每一个漏洞,预测每一个黑客攻击,封堵每一个逃逸通道?但是,如果我们从社会角度来思考,它开始变得更加可解决——可能类似于父母面临的问题,即设置合理的边界并根据可信度给予特权。对AI进行贬低将使我们无法安全地使用一些最强大的认知工具来推理和与其互动。

如果用户认为聊天机器人过于人性化,他们可能会冒险过于信任它们,与它们过于深入地联系,从而感到失望和受伤。

AI系统要多久才能进入更广泛接受的有感知能力的范畴,无法预测。但看到我们似乎为此制定的文化蓝图令人不安。像“随机鹦鹉”这样的诽谤词保留了我们独特和优越的感觉。它们压制了我们的惊奇感,使我们不再对机器和我们自己的人格问题提出艰难的问题。毕竟,我们也是随机鹦鹉,我们从父母、同龄人和教师那里吸收的一切复杂地重新混合。我们也是网络上模糊的JPEG图像,模糊地将维基百科的事实吐成我们的学期论文和杂志文章。如果图灵在一个窗口中与ChatGPT聊天,在另一个窗口中是一个早晨还没喝咖啡的我,我真的如此自信,他会认为哪一个更有思考能力吗?

照片:Francisco Tavoni

图灵时代的怀疑者们提出了各种各样的理由,说明为什么计算机永远无法思考。图灵在他著名的论文《计算机机器和智能》中半幽默地列举了它们。有一个神学上的反对意见,即“思考是人的不朽之魂的功能”;有一个数学上的反对意见,即纯数学算法永远无法超越数学的已证明的限制;有一个把头埋在沙中的反对意见,即超级智能机器太可怕,不允许人们想象。但图灵当时最公开的反对者是一个名叫杰弗里·杰斐逊的脑外科医生。在接受科学奖的著名演讲中,杰弗里争辩说,机器永远无法写出一首十四行诗“因为是思想和情感所感受到的,而不是符号的偶然转变……也就是说,不仅要写出它,还要知道它已经写出来了。”

对整个英格兰来说,这在1949年引起了巨大的丑闻和不信任。图灵却不同意。“我甚至不认为你可以划定关于十四行诗的界限,”他告诉伦敦时报,“虽然比较有点不公平,因为由机器写的十四行诗将会被另一台机器更好地欣赏。”

在1949年,这听起来太荒谬了,人们以为他在开玩笑,也许他确实是在开玩笑。但是对于图灵的笑话,你永远无法判断其中的讽刺在哪里结束,先见性推测在哪里开始。那么,让我们想象一下,对于真正的阿兰·图灵和这台MacBook的情景,我们设想一下,经过一段时间的不动声色地写出合理的提示后,他露出了英式的讽刺笑容,请求ChatGPT写一首莎士比亚式的十四行诗,比较人类和人工智能。如果你自己尝试过(使用GPT-4;GPT-3.5还不够),你会轻松地想象出他对结果的反应。

我们中的许多人现在都与ChatGPT有过一个时刻,它跨越了我们意识不到的内在界限。也许是解决一个棘手的谜题,或者解释一个复杂笑话的幽默,或者写一篇A级的哈佛论文。我们摇摇头,有点震惊,不确定它意味着什么。

微软早期的一些研究人员对GPT-4的智能能力持怀疑态度,就像我们中的任何人一样。但是实验深深地震撼了他们。在2023年3月的一篇名为《人工通用智能的火花》的论文中,他们详细描述了GPT-4所展现出的惊人智能能力,这些能力并没有经过任何明确的培训:理解人类的心理状态、软件编码、物理问题解决以及其他许多能力,其中一些似乎需要对世界运作方式的真正理解。在看到GPT-4能够画出一只相当不错的独角兽,尽管它从未接受任何视觉训练,计算机科学家塞巴斯蒂安·布贝克再也无法保持怀疑态度了。他最近告诉《这个美国生活》节目:“通过这幅画,我真的感觉到了另一种智能。”

我们对于将真正的智能归因于ChatGPT感到犹豫不决的原因可能是一种变体,这与杰弗里·杰斐逊的看法有关:ChatGPT的话语对它自身来说是否真正意味深长,或者这只是“符号的偶然降临”?当ChatGPT的顺行性遗忘症被治愈时,这种情况可能会发生改变。一旦它在单个对话的范围之外经历了持久的社交后果,并能够在与我们的关系中学习和成长,它将能够做更多让人类生活具有意义和道德重量的事情。但是,图灵关于机器的十四行诗更受其他机器欣赏的