DALL-E 3 可能将 AI 图像生成推向新的水平 | ENBLE

DALL-E 3 AI image generation reaches new heights | ENBLE

OpenAI

根据Decoder的报道,OpenAI可能正在准备其DALL-E AI文本到图像生成器的下一个版本,并进行了一系列泄露给公众的Alpha测试。

一个匿名的泄露者在Discord上分享了他的经历和即将发布的OpenAI图像模型的详细信息,该模型被称为DALL-E 3。他首次出现在5月份,告诉这个兴趣相关的Discord频道,他参与了OpenAI的Alpha测试,尝试了一个新的AI图像模型。他当时分享了他生成的图片。

5月份的Alpha测试版本具备在图像模型内生成多个宽高比的能力。YouTuber MattVidPro AI随后展示了以16:9宽高比生成的多张图片。这个版本还展示了该模型在高质量文本生成方面的娴熟技巧,这对于竞争对手模型(如Stable Diffusion和Midjourney等顶级生成器)来说仍然是一个痛点。

一些示例展示了图片,比如文字融入到砖墙中、霓虹灯拼成的字、城市中的广告牌、蛋糕装饰和山上刻着名字。该模型声称DALL-E擅长生成人物。其中一张图片展示了一个女人从鱼眼的角度在派对上吃意大利面。

泄露者于7月中旬再次回到Discord频道,透露了更多细节和新图片。他声称自己参与了一个约有400个主题的“封闭Alpha”测试版本。他补充说,他是通过电子邮件被邀请参加试验的,并且还参与了原始的DALL-E和DALL-E 2的测试。这导致了Alpha测试可能是针对DALL-E 3的结论,尽管尚未得到确认。

该模型在5月份和7月份之间进行了大幅更新。泄露者通过分享基于同一提示生成的图片来展示DALL-E 3随时间的提升。提示内容是一幅画,画中一个粉色小丑和一只熊猫在自行车比赛中击掌庆祝。自行车由奶酪制成,地面很泥泞。他们在一个有雾的森林中骑行。熊猫很生气。

5月份的Alpha版本生成了符合提示大部分要点的整体场景。两只手连接处有一点变形,自行车的车轮是黄色的,而不是由奶酪制成的。然而,7月份的Alpha版本更加详细,粉色小丑和熊猫明显在击掌庆祝,自行车轮子在多个生成中都是由奶酪制成的。

与此同时,在Midjourney中,场景中缺少了小丑,熊猫骑着摩托车而不是自行车。地面上是道路,而不是泥泞。熊猫们感到高兴,而不是生气。

7月份的Alpha测试示例中有许多展示了该模型的潜力。然而,由于Alpha测试是未经审查的,泄露者指出它也有可能生成“暴力和裸露画面,或包含公司标志等受版权保护的材料。”

一些示例包括一个血腥的动漫女孩、《权力的游戏》角色、《侠盗猎车手V》封面、一个吃着地铁三明治的僵尸耶稣,还暗示了轻微的血腥画面,以及从考古发掘中挖掘出的Shrek等。

MattVidPro AI指出,该图像模型生成的图片就像是按照特定风格设计的。

DALL-E 2于2022年4月发布,但由于其受欢迎程度和伦理和安全等方面的担忧,它受到了严格的监管和排队等待。这款AI图像生成器于2022年9月向公众开放。