生成AI:重新训练数据还是创意混音者?

生成AI的模仿能力引发了创作者们的争议,引起了关于合理使用版权辩护有效性的担忧

“`html

美国派重制版加剧了GenAI版权纠纷

🎵 唐·麦克林一直不得不分享“美国派”这首歌。自1971年发行以来,这首热门歌曲在麦当娜的翻唱,怪人艾尔·杨科维奇的模仿,韩国🇰🇷 总统的献唱,漫威电影的子情节,甚至中央情报局的酷刑手法中不断出现。但如今,麦克林的主要模仿者甚至不是人类。🤖

您可以亲自审问这些罪犯。只需加载OpenAI的ChatGPT,并提示文本生成器“写一首关于音乐消逝之日的歌词”。工具的输出总会吐出“美国派”的歌词或主题,有时甚至是相同的合唱部分。

尽管提示并未要求“美国派”或其灵感来源的故事 — 杀死摇滚音乐先驱巴迪·霍利、里奇·瓦伦斯和大博普的1959年飞机失事事件 — 这种反刍还是出现了。

混音算法

这进一步证明了ChatGPT无法创造任何真正原创的东西。相反,这个系统更接近于混音算法。真正的创造力在于它的训练数据,这些数据是未经许可从网络上获取的。😮

伯明翰大学的人工智能专家马克斯·利特尔博士将这个工具描述为“侵权机器”。他嘲笑声称大型语言模型(LLM)具有独立创造力的任何说法。

“这不是事实,因为它们如果没有在天文数字的文本上接受训练,根本无法产生任何东西,” 利特尔告诉TNW。

这种方法在生成式人工智能中普遍存在。严谨的研究表明,LLM可以重复大部分原始训练文本,包括书籍和诗歌中的原文段落。就在上周,一份报告发现60%的OpenAI的GPT-3.5输出包含剽窃内容。

问题也不仅仅适用于文本生成器。从Stable Diffusion的图像到Google Lyria的音乐和GitHub Copilot的代码,跨模态的GenAI工具都可以生成令人吃惊质量的输出 — 以及诡异的熟悉感。

对创意产业的威胁

他们的模仿对创意产业构成了一种存在威胁。也对GenAI行业构成了威胁。

艺术家们表示,GenAI的不懈推进正在践踏他们的版权惯例。毫不奇怪的是,科技公司持不同意见。他们的辩护通常援引“公平使用”原则。

各司法管辖区的细节各有不同,但“公平使用”的一个核心原则是,所生成的内容具有“变形”目的和特征。它们不仅仅是简单地复制或复制他们的训练数据,还添加了一些新的重要内容。至少,这是GenAI领导者们在法庭上争辩的内容。

总部位于英国的图片生成器Stable Diffusion的创始公司Stability AI去年向美国版权办公室提出了这一论点。OpenAI也在最近的一项运动中援引了这一原则,以驳回两起集体诉讼。

包括喜剧演员莎拉·西尔弗曼和加拿大小说家莫娜·阿瓦德在内的几位作者起诉该公司,声称其在非法获取数据集上训练LLM。因为他们的作品被嵌入到了ChatGPT中,他们说这个工具本身是由版权保护的“衍生作品”。

OpenAI驳回了这一主张。根据该初创公司的法律团队, “创新者以变换方式使用受版权保护的材料并不违反版权法” 。法官也驳回了每个ChatGPT输出都是衍生作品的指控。

但当输出与他们的训练数据完全相同时,法律问题开始变得混淆。复制不是转型的可疑依据。这也是一个常见现象。

致命点

除了美国派外,GenAI工具还再现了电影场景、卡通人物、视频游戏、产品设计和代码。

它们还复制了报纸 — 这可能导致一个临界点。

去年十二月,纽约时报起诉了OpenAI及其商业伙伴微软。这家新闻机构声称其文章在训练数据中的未经授权使用侵犯了知识产权(IP)权益。法律专家将这起诉讼描述为“至今最好的一例,指控生成式人工智能侵犯版权”。

纽约时报的律师强调了新闻内容与ChatGPT输出之间的“实质相似性”。为了证明这一点,他们提供了100个示例,说明机器人复制了该报纸的报道。

“““html

“他们的诉讼还挑战了“合理使用”的另一个关键方面:对原始作品市场的影响。”

原告称,OpenAI不仅复制了《纽约时报》的内容,还利用该内容在同一市场竞争。与此同时,公司还将流量从报纸网站转移开来。

作为证据,他们指出,Bing浏览功能是一项由ChatGPT背后的相同技术驱动的高级功能。该工具可以总结《纽约时报》评论员提出的产品推荐。律师们表示,通过向用户提供这些信息,OpenAI消除了他们访问原始文章的动机。这也意味着他们不会点击为出版商产生收入的产品链接。

“没有任何“转变”的东西,即无需支付就使用时报的内容创建替代 The Times 并将受众带到其他地方的产品,”控诉书宣称。

自然,GenAI巨头们不同意。

OpenAI在一篇指责性的博客文章中回应了诉讼。公司怀疑《纽约时报》要么“指导模型进行复述”,要么“从众多尝试中挑选他们的例子。”

业内人士表示同意。Stability AI首席智能官丹尼尔·杰弗里斯(Daniel Jeffries)描述了诉讼中的提示为“明显操纵”。他说,这些副本“几乎肯定”是通过一种称为检索增强生成(RAG)的技术产生的,该技术通过访问外部信息源优化LLM输出。

AI的污染问题

无论使用何种方法,OpenAI都表示,复述是一种“罕见的错误”,公司正在“努力将其消灭至零。”但批评者对预防机制的有效性表示怀疑。

ChatGPT复述“American Pie”很小概率发生。

“有时候,算法可以检测出直接逐字侵犯版权行为… 并会出现警告,”他说。

“尽管如此,该算法仍然很容易生成从训练数据中明显抄袭的输出,就像在这种情况下,歌词的主题始终是1959年的Holly/Valens/Bopper坠机事件。”

尽管在ChatGPT中可能很少见,但在GenAI工具中,复述却是普遍存在的。当它们明显复制其训练数据然后在同一市场竞争时,合理使用的基础似乎岌岌可危。

知识产权法律事务所EIP的管理合伙人本·马林(Ben Maling)正在密切关注这种不稳定性。明显抄袭或派生的输出数据威胁着“另一种可能侵犯版权的行为,”他警告道。系统或最终用户都可能需要承担损失。

“许多大型AI供应商如此担心这一潜在的损害,以至于他们提供 [保证] 承诺捍卫他们免受侵权行为的打击,”马林通过电子邮件告诉TNW。

GenAI的困境

这并不是OpenAI担心的唯一问题。上个月,这家GenAI的旗手告诉英国议会说,如果没有版权材料,像ChatGPT这样的AI工具是“不可能”创造的。寻求法律保护的同时,公司请求特殊豁免来实践。

这一请求加剧了关于复述训练数据的担忧。

如果政客们给予OpenAI豁免,这家创业公司“将可以自由地从任何地方和任何时候复制和混合所有原始文本,”Little说。结果,他们冒着“摧毁依赖版权才能存在的创意产业”的风险。

治疗复述

GenAI的复述不一定是终结的。分析师已为这一尴尬情况开出了多种治疗方案。

其中一种是由Stability AI前音频副总裁埃德·牛顿-雷克斯(Ed Newton-Rex)开发的。在创业公司任职期间,牛顿-雷克斯开发了Stable Audio,这是一个以许可内容为基础的音乐生成器。这位36岁的专家希望其他公司效仿他的做法。

“你可能会稍微减慢AI产业的步伐,因为他们需要花更多的时间、金钱和精力来获取许可,”牛顿-雷克斯告诉TNW。“但在这个过程中,坦率地说,你将拯救创意产业。我认为这里存在着一种生存威胁。”

面临这种威胁的艺术家们采取了更极端的解决办法:毒品。

最受欢迎的交付方式是一种名为Nightshade的工具。这款软件通过对图像应用不可见的更改来 “毒害” 训练数据。当公司未经同意地爬行和使用这些创作时,他们可能会扰乱AI模型的输出。

“““html

该方法被证明是受欢迎的。Nightshade上线后的五天内,下载量超过了25万次。

尽管如此,Little预计AI将继续复制美国馅饼。他怀疑基于抓取创意内容训练的工具是否能够摆脱抄袭问题。“因为按设计来说,”他说,“它们只是重复混合它们的训练数据的算法。”

今年TNW大会的一个主题是Ren-AI-ssance:由AI驱动的重生。如果你想更深入地了解所有与人工智能有关的事物,或者简单地体验这个活动(并对我们的编辑团队打个招呼),我们为忠实读者准备了特别的东西。结账时使用代码TNWXMEDIA可获得商务通行证、投资者通行证或创业者套餐(初创版和增长版)7折优惠。

问:GenAI工具能够创造出真正原创的东西吗?
答:不行。GenAI工具,比如OpenAI的ChatGPT,就像是混合算法。它们严重依赖未经同意从网络上抓取的训练数据,它们的输出往往复制了原始训练文本的大段内容。

问:什么是“公平使用”原则以及它与GenAI使用受版权保护材料的关系是什么?
答: “公平使用”原则是一种法律概念,允许在某些情况下使用受版权保护的材料,比如用于变革目的。GenAI公司认为他们对受版权保护的材料的使用是具有变革性的,并且增添了一些新的和重要的内容。

问:有证据表明GenAI工具复制了受版权保护的内容吗?
答:是的,有些案例表明GenAI工具未经授权地复制了受版权保护的内容。例如,纽约时报起诉了OpenAI和微软,称其文章在训练数据中被使用却未得到许可。

问:GenAI复制受版权保护内容对原始创作者有何影响?
答:GenAI对受版权保护的内容的复制可能会通过转移流量远离原作者的作品并在同一市场中竞争来损害原始创作者。这可能导致创作者遭受经济损失,同时减少受众访问原始内容的动机。

问:GenAI公司如何回应对侵犯版权指控?
答:GenAI公司,比如OpenAI,通过辩称其对受版权保护材料的使用属于公平使用,并且他们正在创造有变革性的产品来为自己辩护。然而,围绕这些声明存在持续的辩论和法律诉讼。

问:有哪些方法或措施被提议来解决GenAI复制受版权保护材料的问题?
答:一个提议的方法是为训练GenAI模型使用的内容进行许可。这将需要人工智能公司花费更多的时间和金钱来进行许可,但它可以帮助保护创意产业。另一个方法是“毒害”训练数据,当未经授权使用发生时,这将扰乱AI模型的输出。

参考资料:

  1. AI专家Max Little关于ChatGPT剽窃的观点
  2. 关于LLM复制训练文本的研究
  3. 关于OpenAI的GPT-3.5输出包含剽窃的报告
  4. Stability AI关于使用稳定扩散进行公平使用的论据
  5. 纽约时报起诉OpenAI和微软的诉讼文件
  6. 破坏AI模型工具Nightshade

“`