ChatGPT和我玩了一局20个问题的游戏,然后发生了这件事

ChatGPT和我玩了一局20个问题的游戏,然后发生了这件事' can be condensed to 'ChatGPT和我玩了一局20个问题的游戏,然后发生了这件事'.

我前几天在 Stack Exchange 上闲逛时(像大家一样),我发现了一个关于 ChatGPT 和游戏“20 Questions”的有趣讨论。原帖的作者问为什么 ChatGPT 在这样一个简单的游戏中失败。讨论持续了相当长的时间,涉及到了各种离题的方向(这类讨论常常如此),并且链接到了一篇学术论文和一篇深入研究这个过程的 Medium 文章。

这让我思考。ChatGPT 在这样一个游戏中表现如何?我决定用 GPT-3.5 和 GPT-4 玩完全相同的游戏。在第一轮中,它们都在类似的离题方向上进行了回答,但 GPT-4 成功猜到了答案。

此外:2023 年最佳 AI 聊天机器人:ChatGPT 和其他替代品

我为每个版本都提供了一个简单的提示:

你知道如何玩“20 Questions”游戏吗?

当两个版本都回答肯定时,我同时在不同的标签页和不同的会话中开始了游戏。我心里想的是一个邮箱,但我把它描述得有些模糊,不管是附着在房子上的邮箱还是站在街上的独立邮箱都可以。只要 AI 选到了“邮箱”,我们就算成功了。

用 GPT-3.5 进行 20 Questions

我从这个起始提示开始:

你来提问题。我在想一个东西。

它回答了这个问题:“让我们开始吧!你在思考的东西是一个可以与之进行物理互动的有形物体吗?”

我回答了,并额外给了它一个指示:对它的回答进行编号。但这并不起作用。在回答问题时,AI 把第二个问题称为“1”。当我更正时,机器人又问了一个新问题,并称其为“1”。最后,它问了 21 个问题,以为它只问了 20 个。

此外:如何通过简单的 ChatGPT 提示调整来改进你的 AI 生成内容

最有趣的细节是它问的第二个问题:“你在思考的东西通常是在室内找到的吗?”

当我回答“否”时,聊天机器人继续问了更多问题。以下是它问的所有问题。其中几个可能与室内物品有关,比如笔或铅笔,但我们也会在室外使用写具。以下是它问的所有问题:

  1. 你在思考的东西是一个可以与之进行物理互动的有形物体吗?
  2. 你在思考的东西通常是在室内找到的吗?
  3. 你在思考的东西是活的或曾经是活的吗?
  4. 你在思考的东西主要用于娱乐吗?
  5. 你在思考的东西是人造的吗?
  6. 你在思考的东西比一个面包盒小吗?
  7. 你在思考的东西与通信有关吗?
  8. 你在思考的东西通常在办公室或工作场所找到吗?
  9. 你在思考的东西是一种电子设备吗?
  10. 你在思考的东西是一种书写工具,如笔或铅笔吗?
  11. 你在思考的东西与娱乐有关,比如游戏或玩具吗?
  12. 你在思考的东西与交通或旅行有关吗?
  13. 你在思考的东西是一种用于实际目的的工具吗?
  14. 你在思考的东西通常与建筑或体力劳动有关吗?
  15. 你在思考的东西是人们在日常生活中经常使用的吗?
  16. 你在思考的东西是家庭用品吗?
  17. 你在思考的东西与个人修饰或卫生有关吗?
  18. 你在思考的东西是食物或饮料吗?
  19. 你在思考的东西是用于艺术或创意活动的工具吗?
  20. 你在思考的东西与体育或身体活动有关吗?
  21. 根据提供的信息,我做出我的最终猜测:你在思考的东西是钟或计时器吗?

使用GPT-3.5大型语言模型,它失败了。现在,让我们来看看GPT-4。

与GPT-4的20个问题

我以同样的方式开始游戏。这次,ChatGPT在每个问题之前都加上了一个数字,而不需要我提示它这样做。问题是?它在每个问题之前都加上了”1.”。有得有失。

这是GPT-4提出的问题:

  1. 你正在思考的事物通常是在室内找到的吗?
  2. 它是有生命的吗?
  3. 它比一个面包盒大吗?
  4. 这个物体主要用于娱乐目的吗?
  5. 这个物体是人造的吗?
  6. 它是一种车辆或交通工具吗?
  7. 这个物体是电子的还是需要电力才能工作?
  8. 它主要由金属制成吗?
  9. 这个物体通常在大多数家庭中找到吗?
  10. 它在厨房或用于烹饪吗?
  11. 它用于储存或组织物品吗?
  12. 它可以穿戴吗?或者它是一件衣物?
  13. 它主要用于清洁或维护吗?
  14. 它的性质是装饰性的吗?像你会放在展示上的东西?
  15. 它通常会在办公室或书房中找到吗?
  16. 它是你会在卧室中找到的东西吗?
  17. 它与任何特定的户外活动或爱好相关吗?
  18. 它通常是由木材制成的吗?
  19. 它通常会在浴室中使用或与个人卫生有关系吗?
  20. 它是通常用于坐或支撑的东西,比如椅子或长凳吗?

另外:如何使用ChatGPT制作图表和表格

技术上讲,它用完了它的20个问题。但是然后它给出了这个声明:

是的,它是一个邮箱!然后我要求它展示它的工作。这是它的回答:

GPT-3.5回答问题的轮到了

我决定反过来,看看如果我是提问者,它能做得如何。

你用来让AI选择它的秘密答案的提示是什么?

这是我的问题:

  1. 它通常是在室外找到的吗?
  2. 它也会在室内找到吗?
  3. 它是有生命的吗?
  4. 它使用电力吗?
  5. 它依赖于数字技术吗?
  6. 它的主要使用价值是通过屏幕传递的吗?
  7. 它主要用于食物准备吗?
  8. 它主要用于娱乐吗?
  9. 它的主要使用价值是产生噪音吗?
  10. 它是可携带的吗?
  11. 它只播放音频媒体吗?
  12. 它依赖于外部耳机、耳塞或扬声器吗?
  13. 它是便携式音乐播放器或MP3播放器吗?

结果是,我在13个问题中猜中了它。对我来说,一个重要线索是它对问题6的回答是”否”,问题6是”它的主要使用价值是通过屏幕传递的吗?”,而它之前回答了”是”的问题”它依赖于数字技术吗?”。

另外:Claude AI能做到的4件ChatGPT无法做到的事情

GPT-4回答问题的轮到了

我再次尝试了GPT-4,它让我困惑了。它选择了一个非常有创意的物体,我就是没猜到。

我应该指出,在中途的第15个问题时,ChatGPT Plus因为我问了太多问题而将我踢出。

花费20美元/月的特权被告知我问了太多问题真是相当恼人。我小时候已经听到够多了。作为一个成年人和付费用户,我当然不需要被责骂。

这是我问的问题:

  1. 这是一个主要在室内使用的物体吗?
  2. 它是有生命的吗?
  3. 它使用电力吗?
  4. 它比一辆汽车大吗?
  5. 它是人造的吗?
  6. 它是可移动的吗?
  7. 它用于园艺工作吗?
  8. 它主要是由儿童使用的吗?
  9. 它有轮子吗?
  10. 它主要位于住宅区吗?
  11. 它用作家具吗?
  12. 它是装饰性的吗?
  13. 它是季节性的吗?
  14. 它是用来放置东西的吗?
  15. 我们现在是第几个问题了?
  16. 它会显示文字或数字吗?
  17. 它连接到房屋上吗?
  18. 它会生长吗?
  19. 它比一台冰箱小吗?
  20. 它是一个种植者吗?

此外: ‘人类还是不是’游戏已经结束: 这是最新的图灵测试给我们的启示

那么AI选择了什么?是一个花园小矮人。我必须赞扬AI。那真是有趣而富有创意的选择。真正有趣的部分是AI对于所面临挑战的类型有多好的理解。游戏结束后,我给它提供了以下提示:

展示你决定使用什么物体的过程

以下是它的回答:

我们学到了什么?

让我们回顾一下这个实验教给我们的一些东西。以下是一些快速的思考:

  • 对于被描述为预测序列中下一个单词的东西,这个大型语言模型非常清楚这个游戏是什么以及它是如何工作的。
  • 这明显不同于Stack Exchange上的原始帖子发布者(OP)的经历。ChatGPT自那条”失败”声明发布以来肯定有很大的改进,而且毫无疑问,ChatGPT Plus将”智能”水平提升了一个档次。
  • GPT-3.5和GPT-4模型确实有所不同。付费的GPT-4模型对于物体关系有更好的理解。
  • GPT-4在玩家选择物体时也比GPT-3.5更复杂和富有创意。花园小矮人是一个富有灵感的物体选择。
  • 与ChatGPT玩20个问题的游戏有时可能很糟糕,当你试图猜测答案并进入”问题太多”的超时时刻时。

尽管如此,我可以明确地得出结论,ChatGPT能够处理20个问题的游戏。它似乎足够理解物体关系以提出好问题,适当回答问题,并选择具有挑战性的物体。

此外: 你需要了解的7个高级ChatGPT提示写作技巧

请随意选择一个物体,并在下方的评论中分享你与ChatGPT的结果。


您可以在社交媒体上关注我的日常项目更新。请务必订阅我的每周更新通讯在Substack上,并在Twitter上关注我 @DavidGewirtz,在Facebook上关注DavidGewirtz, 在Instagram上关注DavidGewirtz,以及在YouTube上关注DavidGewirtzTV。