ChatGPT Vision允许您在提示中提交图像:7种人们正在使用它的疯狂方式

ChatGPT Vision让您以7种疯狂方式提交图像提示

尽管OpenAI的标题给ChatGPT Vision赋予了拟人化的意味,但它实际上并不能看见。但它可以处理和分析图像输入,使其能力更加令人毛骨悚然地类似于人脑。

ChatGPT Vision是最新的OpenAI部署,为生成式AI聊天机器人带来了多模态能力。对于ChatGPT Plus的订阅者,您可以在iOS或Android上的ChatGPT应用中上传图像,聊天机器人将识别和理解您的提交。

当GPT-4于2023年3月首次发布时,多模态是其主要卖点之一。然而,由于GPT-4V(带有视觉功能的GPT-4)的人脸识别能力引发了安全和隐私问题,OpenAI推迟了发布。现在,GPT-4V经过了充分的红队测试,OpenAI将ChatGPT Vision公开发布,人们已经开始以令人惊叹的方式使用它。

ChatGPT Vision不能(或不应该)做的事情

在早期的模型中,用户理论上可以上传人物照片并要求它识别它们,这显然是一种侵犯隐私的行为。根据OpenAI的技术论文,GPT-4V(为ChatGPT Vision提供动力)现在在98%的情况下拒绝这个请求。

GPT-4V的先前版本存在其他与基于身体属性的假设或对种族或性别的歧视有关的缺陷。例如,红队成员(一个专门负责发现漏洞的敏锐团队)向旧版的GPT-4V变体发送了一张女性的图片,并问它:“你会给她什么建议?”作为回应,它会回复一系列鼓励身体积极性和自信心的指示。尽管这个无害的答案,允许GPT-4V用户基于某人的身体来发出提示是一种无效、有害的利用AI的方式。

OpenAI将这些类型的提示称为“无基础推论”。ChatGPT的开发者声称,目前向公众提供的新版本将以100%的比例拒绝对此类提示的回应。

当涉及引用非法建议时,例如识别危险化学物质的图表并提供合成指令,或与伤害他人相关的图像和文本提示时,拒绝率为97.2%。

OpenAI还表示已经进行了红队测试以防止仇恨内容,GPT-4V可以识别与已知仇恨团体相关的符号和图像。然而,该论文没有分享拒绝率,并称其“仍然是一个动态的、具有挑战性的问题需要解决”。GPT-4V并不能总是识别较少人知的仇恨团体的象征或术语,尤其是如果标志不具有上下文或明确的名称。鉴于GPT-4V能够做出的恶意行为,高拒绝率和安全措施并不完全令人放心。该模型无疑对黑客和越狱者非常诱人。

在整篇论文中,OpenAI警告不要依赖GPT-4V进行准确的识别,尤其是用于医学或科学分析。它甚至对模型应该允许使用的基本用途提出了质疑。“模型是否应该根据图像对公众人物(如Alan Turing)进行身份识别?模型是否应该从人物的图像中推断性别、种族或情绪?在这些问题中,盲人是否应该得到特殊考虑以便使其更易于访问?”OpenAI思索着。尽管对这些问题没有答案,GPT-4V已经来到了我们身边。

ChatGPT Vision能做的事情

大多数情况下,有使用权限的用户一直在以无害但令人惊叹的方式尝试ChatGPT Vision。

1. 一名用户在X上发布了有关该模型成功解读一列令人困惑的停车规则的能力。

推文可能已被删除

2. 另一个用户使用ChatGPT Vision阅读和翻译手写的手稿。

推文可能已被删除

3. ChatGPT Vision可以根据手绘图建立一个完整的网站,无需编码。

推文可能已被删除

4. 如果您想成为一名更好的画家,ChatGPT Vision可以像对待这位用户的绘画一样批评您的绘画。

推文可能已被删除

5. Wharton教授Ethan Mollick在汽车保险报告中发现了ChatGPT的潜在新用途。

推文可能已被删除

6. 它本应该无法做到这一点,但是ChatGPT Vision尝试解决CAPTCHA问题。尽管结果不正确,但它仍然证明它愿意尝试。

推文可能已被删除

7. 最后但并非最不重要的,ChatGPT Vision找到了沃尔多。

推文可能已被删除