“我用Bard、Claude和Copilot为ChatGPT进行了事实核查,而这个AI是最自信但错误最多的”

我使用Bard、Claude和Copilot对ChatGPT进行事实核查,发现这个人工智能虽然自信,但也存在大量错误

Abstract AI room with colorful lights on the walls

生成式人工智能(AI)以出现事实错误而闻名。所以,当你已经请ChatGPT生成了150个预设事实,但你又不想花一个周末手动确认每个事实的时候,你该怎么办呢?

另外:AI在2023年:十多年来最具突破的一年

对于我来说,我的做法是求助于其他的AI。在这篇文章中,我将解释这个项目,评估每个AI在事实核查的对决中的表现,并提供一些最终的思考和警告,如果你也想冒险进入这个迷宫般的曲折而又相似的过程中。

这个项目

上周,我们发布了一个非常有趣的项目,在这个项目中,我们让DALL-E 3在ChatGPT中运行,生成了50张它认为代表每个美国州的风景图片。我还让ChatGPT列出“你所知道的关于这个州的最有趣的三个事实”。结果正如我的编辑在文章标题中所说的那样,“非常奇怪而辉煌”。

ChatGPT把金门大桥放在了加拿大的某个地方。这个工具把自由女神像同时放在了美国中西部和曼哈顿岛的某个地方。它还生成了两座帝国大厦。总之,ChatGPT摇滚上了它的抽象表现主义,但结果还是相当酷的。

另外: 我让DALL-E 3为每个美国州创作肖像,结果非常奇怪

至于每个事实的准确性,它们大多数都是准确的。我对美国的地理和历史还挺了解的,觉得ChatGPT生成的事实中很少有明显错误的。但我没有进行任何独立的事实核查。我只是阅读了结果并认为它们足够好。

但如果我们真的想要知道那150个事实的准确性呢?这种问题似乎是一个AI的理想项目。

方法论

所以问题来了。如果由GPT-4,即OpenAI大型语言模型(LLM)所使用的ChatGPT Plus生成这些事实陈述,我并不完全相信它应该对它们进行核查。这就像让高中学生写一篇历史论文,不使用任何参考资料,然后自行纠正自己的工作一样。他们已经从怀疑的信息开始了,现在又让他们自行纠正?不对,这听起来对我来说不对劲。

另外:两次突破使2023年成为技术改变超过十年最具创新的一年

但如果我们把这些事实输入其他AI中的其他LLMs会怎样呢?谷歌的Bard和Anthropic的Claude都有自己的LLMs。必应使用的是GPT-4,但出于完备考虑,我决定测试它的响应。

正如你将看到的,我从Bard获得了最好的反馈,所以我将其反馈结果重新输入到ChatGPT中,这是对宇宙自然次序的一种有趣的颠倒。这是个很酷的项目。

人类克劳德

克劳德使用了克劳德2 LLM,这也是Notion人工智能实现中使用的。克劳德允许我将一份包含全部事实的PDF文件输入给它(不包含图片)。这是我得到的结果:

总体而言,克劳德发现事实列表大多是准确的,但对三个项目有一些澄清。我限制了ChatGPT事实的长度,这个限制阻碍了事实描述中的细微差别。克劳德事实检查对此缺乏细微差别的一些问题有意见。

总体而言,这是一个鼓舞人心的回应。

飞行员…还是非飞行员?

接下来是微软的Copilot,它曾经被称为必应聊天人工智能。Copilot不允许上传PDF文件,所以我尝试了将所有50个州的事实文本粘贴到其中。但是这种方法立即失败了,因为Copilot只接受最多2000个字符的提示:

我向Copilot提出了以下问题:

以下文本包含州名,后面是每个州的三个事实。请检查这些事实,确定其中有错误的州

这是我得到的回答:

它基本上重复了我要求检查的事实数据。所以,我试图用更强有力的提示来指导它:

但它又把我要求验证的数据给我了。我觉得这个输出非常奇怪,因为Copilot使用的是和ChatGPT相同的LLM。很明显,微软对其进行了不同的调整。

我放弃了,转向Bard。

巴德

谷歌刚刚宣布了他们的新型Gemini LLM。我还没有接触到Gemini,所以我在谷歌的PaLM 2模型上运行了这些测试。

另外:什么是Gemini?有关谷歌新的AI模型的一切

与克劳德和Copilot相比,巴德在这方面做得非常出色,或者用莎士比亚的话说,它“如同骑在狭窄世界之上的巨人”。

请查看以下结果:

需要注意的是,很多州的事实甚至在各州之间都没有达成一致,或者存在细微差别。正如我将在下一节中向您展示的,在将这个列表反馈给ChatGPT后,它在阿拉斯加和俄亥俄的回答中发现了两处差异。

但这里还有其他的问题。某些方面,巴德在任务上做得过度了。例如,巴德正确地指出除缅因州之外,其他州也生产龙虾。但缅因州对龙虾的生产可谓全力以赴。我从未去过其他一个以迷你龙虾陷阱作为最受欢迎的旅游纪念品的州。

另外:我与亚马逊的免费AI课程共度了一个周末,我强烈推荐你也这样做

或者我们来看看内华达州和51区。ChatGPT说,“具有高度机密的军事基地,有传言称有不明飞行物目击事件。”巴德试图纠正,说“51区不仅仅是有传言称有不明飞行物目击事件,它是一个真正的高度机密军事设施,其目的未知。”它们基本上说了一样的事情,只是巴德没有意识到紧凑的词数限制所带来的细微差别。

巴德还在堪萨斯州卡佛市出了问题。ChatGPT说堪萨斯州是“美国连续48个州地理中心的所在地。”巴德则声称是南达科他州。如果考虑阿拉斯加和夏威夷的话,这个说法是正确的。但ChatGPT说的是“连续的”,而这个头衔属于卡佛市附近的一个地方。

此外:这些工作最有可能被人工智能取代

我可以继续下去,在下一个部分我会详细说明,但你明白我的观点了。巴德的事实核查似乎令人印象深刻,但它经常漏掉重点,与其他任何人工智能一样错误。

在我们继续ChatGPT对巴德的事实核查之前,我要指出巴德的大多数条目要么是错误的,要么是毫无根据的。但是,谷歌还是将其智能回答放在大多数搜索结果的前面。这让你担心吗?我肯定担心。

这样的奇迹,我的各位贵族,不宜谈论。

ChatGPT

一开始,我就能告诉巴德在一个事实上出错了——阿拉斯加比德克萨斯大得多。所以,我想,让我们看看ChatGPT能否核查巴德的事实核查。一开始,我以为这个AI之间的追逐可能会让月球脱离地球的轨道,但后来,我决定冒着整个宇宙结构被摧毁的风险,因为我知道你想知道发生了什么:

这是我给ChatGPT的输入:

这是ChatGPT的回答(为了清楚起见,月球确实保持在轨道上):

你可以看到,ChatGPT对巴德错误地声称德克萨斯州是最大的州表示异议。它对俄亥俄州与堪萨斯州哪个是航空业诞生地也持有异议,这比大多数学校教的都更具争议。

此外:确保数据适合生成式人工智能的7种方法

普遍认为,威尔伯和奥维尔·莱特是第一位飞行的人(实际上是在北卡罗来纳州的基蒂霍克),尽管他们在俄亥俄州的戴顿建造了他们的莱特飞行器。话虽如此,乔治·凯利爵士(1804)、亨利·吉法尔(1852)、费利克斯·杜·坦普尔(1874)、克莱芒特·阿代尔(1890)、奥托·利利恩塔尔(1891)、塞缪尔·兰利(1896)、古斯塔夫·怀特黑德(1901)和理查德·皮尔斯(1902)来自新西兰、英国、法国、德国和美国的其他地区,这些人都有某种合理的声称是第一个实现飞行的人。

但我们将这个点给了ChatGPT,因为它只有10个单词来表达一个声明,而俄亥俄州是莱特兄弟的自行车店所在地。

结论和注意事项

让我们首先明确一点:如果你要提交一份需要准确无误的论文或文档,请自己进行事实核查。否则,你的德克萨斯州大小的雄心可能会被像阿拉斯加一样的问题掩盖。

正如我们在测试中看到的一样,结果(与巴德一样)可能看起来很令人印象深刻,但完全或部分错误。总体而言,询问各种人工智能之间相互核实是很有趣的,这是一个我可能会进一步探索的过程,但结果只能证明它们有多么无法取得一致的结论。

音乐合成AI完全放弃了,并要求回到它的小睡时间。Claude对一些答案的细微差别发表了意见。巴德对一整系列答案提出了强硬的指责——但显然,犯错误不仅是人类的特权,也是AI的。

此外:这5项2023年的主要技术进步是最具变革性的

最后,我必须引用真正的巴德并说:”混乱已经完成了他的杰作!”

你认为呢?你见过你最喜欢的AI犯过什么严重的错误吗?你是否愿意相信AI提供的事实,还是你现在会自己进行事实核查?在下方评论中告诉我们吧。


您可以在社交媒体上关注我的日常项目更新。记得订阅我的每周更新通讯在Substack上,并在Twitter上关注我:@DavidGewirtz,在Facebook上关注我:Facebook.com/DavidGewirtz,在Instagram上关注我:Instagram.com/DavidGewirtz,在YouTube上关注我:YouTube.com/DavidGewirtzTV