在进行大型语言模型的训练过程中,OpenAI、Meta、谷歌、微软等公司涉嫌未经许可,从互联网上收集了数百万受版权保护的作品,这一行为正处于版权法的灰色地带。
当前,OpenAI面临着大量的法律诉讼,原告们声称该公司训练数据集中的大部分书籍都来自盗版渠道和非授权网站。如果被判定侵权成立,OpenAI有可能面临巨额罚款,甚至需要重新构建其训练算法。这种局面也导致当前越来越多的AI公司不愿意透露其训练数据的详细信息。但是,一些公开的盗版语料库仍然受到密切关注。
近日,有人发现了一个名为"Book3"的数据集,其中包含近20万本书籍,涵盖了畅销书作家如村上春树、史蒂芬·金等人的作品。这个数据集被用于训练AI模型,在最近遭到了反盗版组织的多次抨击。版权问题宛如一把利刃,悬挂在各大AI公司头上,这种危机有摇摇欲坠之势。
AI 公司的秘密
长期以来,对于AI模型的训练数据一直存在着一定的不透明性。今年,多位美国作家集体提起诉讼,指控OpenAI在训练其语言模型时使用了盗版书籍,从而侵犯了版权并违反了多项法律。这些作家提供了简明的证据,因为他们从未同意OpenAI使用他们的作品,但ChatGPT却能够准确地提供他们作品的摘要,这使他们认为这些信息必定来源于某处。根据早期GPT版本的研究论文,其训练数据集部分来源于"两个基于互联网的书籍语料库",分别被称为"Books1"和"Books2",然而关于这些数据集具体包含哪些作品的信息仍然模糊。"Books1"似乎是指"bookcorpus",其中数百本书明确声明"不得以商业或非商业目的复制和分发"。而"Books2"则成为一个谜团,很多人猜测它们可能来源于"臭名昭著的影子图书馆网站",例如Library Genesis、Z-Library、Sci-Hub和Bibliotik。其中,Z-Library成立于2008年,是互联网上最大的盗版电子书库之一。在2022年11月,美国政府起诉了两名运营该网站的俄罗斯公民,随后这两人在阿根廷被捕。
至于GPT-4的45TB训练数据,其中所包含的内容信息相当有限,OpenAI多年来逐渐减少了对其训练数据的披露。尽管目前没有直接证据表明OpenAI使用盗版网站来培训ChatGPT,但是一些其他AI模型以前明确地在盗版书籍上进行过训练,其中就包括使用"Books3"数据集的AI模型。EleutherAI的Pythia研究论文中提到,Pythia是使用Pile数据集进行训练的,而Pile数据集包含多个英语文本集,其中之一就是名为"Books3"的数据集。"Books3"被认为是用于训练AI的最著名的盗版书籍库之一,最初是由AI开发人员和知名的开源AI支持者Shawn Presser于2020年上传的。该数据集包含37GB的文本,包括196,640本纯文本格式的书籍,并在盗版网站bibliotik上托管。Shawn Presser最初在社交媒体上写道:"假设你想要训练一个像OpenAI一样世界级的GPT模型。怎么做呢?你没有数据。现在你可以了,现在每个人都可以。欢迎来到'books3',又称为'all of bibliotik'。"然而,与此同时,反盗版组织也在采取行动,代表相关利益群体试图限制未经授权的AI训练数据的使用。不久前,反盗版组织Rights Alliance向相关网站发送了删除通知,导致这些网站下线了"Books3"数据集,试图访问该数据集的用户会看到404错误。Rights Alliance还联系了AI模型托管平台Hugging Face(该平台托管了"Books3"的下载链接)以及EleutherAI。然而,尽管一些链接被下线,该数据集的副本仍然存在于其他地方。在受到针对后,Shawn Presser继续发布新的下载链接,他表示,除非反对者意图让ChatGPT下线,或者通过法律诉讼将其打垮,否则他希望每个人都能够制作自己的ChatGPT。他还称自己"很愿意为此坐监10个月(海盗湾创始人所服刑的最长刑期),因为我推动了科学进步并赋予你们复制ChatGPT的能力。"他说:"要复制像ChatGPT这样的模型,唯一的方法就是创建像'Books3'这样的数据集。"他还表示:"每个营利性公司都在秘密地这样做,不会把数据集提供给公众。"他认为:"没有'Books3',我们将生活在一个只有OpenAI和其他数十亿美元公司才能访问这些书籍的世界中,这意味着你无法制作自己的ChatGPT。没有人可以做到。只有数十亿美元的公司才有资源去实现这一点。"一些公司包括Meta曾使用过"Books3"。此外,Meta和谷歌等公司也曾使用过C4训练数据集,但因其模型中内容的保密性遭受批评。Meta的Llama 2增加了40%的数据,但在其白皮书中,该公司对其最新大语言模型使用了什么数据持保留态度,唯一提到的是"一个新的混合的公开可用在线数据"。随着AI和版权之间的冲突升级,公司对于分享其AI训练数据的详细信息变得越发不情愿。
万余名作家联名呼吁科技公司尊重作品权益
超过一万名作家齐声发出呼吁,敦促人工智能(AI)公司停止未经授权使用他们的作品。这一联合行动表达了作家们的不满情绪,他们强调除非科技公司为此付费,否则不希望AI模仿他们的作品并进行创作。
美国作家协会向知名科技企业发信
美国作家协会已经向众多知名科技企业的首席执行官发出公开信,其中包括OpenAI、谷歌、Meta、Stability AI、IBM以及微软公司。该公开信要求这些企业停止未经授权使用作家们的创作,或对使用作品进行合理补偿。此举得到了众多知名作家的支持,其中包括《达芬奇密码》作者丹·布朗、《饥饿游戏》作者苏珊·柯林斯、《使女的故事》作者玛格丽特·阿特伍德、《自由》作者乔纳森·弗兰岑等等。公开信的签署作家人数之多,长达100多页。
寻求和解的努力
美国作家协会目前正努力在不诉诸法律诉讼的前提下解决这一争端。他们表示,诉讼会消耗大量资金和时间。但也有一些文学界人士表达了愿意直接在法庭上与科技公司对抗的意愿,控诉Meta、OpenAI等公司使用盗版作品来训练他们的人工智能。
文学界正在调整合同条款
文学经纪人们正在与出版商合作,以更新出版合同条款,明确禁止未经授权的人工智能训练使用。大部分出版商对于限制人工智能使用他们的出版物表示支持。
作家要求合理补偿和保护
美国作家协会的调查显示,90%的作家认为他们应该获得将作品用于生成式人工智能训练的合理补偿。同时,65%的作家支持建立一个集体授权制度,以确保作家权益得到保护。69%的作家认为生成式人工智能对他们的职业构成威胁,而70%的作家认为出版商将开始使用人工智能来完全或部分生成书籍,从而取代人类作者。
立法争取作家权益
除了公开信和法律诉讼,出版业还在积极探索立法途径。美国作家协会正在游说相关法律、法规和政策,要求在使用作家作品进行生成式人工智能训练时获得许可,并为愿意允许其作品用于训练的作家提供合理补偿。他们还强调要求人工智能开发者透明披露他们所使用的训练作品。
作家协会强调,确保作家得到合理补偿不仅是为了维护作家个人权益,更是为了保障文学作品能够持续地反映现实和想象,拓展思维方式,促进社会的进步与发展,而不是陷入重复的陈旧观念中。
多领域内容创作者联合抗议 AI 公司未经授权使用内容
不仅限于作家和艺术家,其他类型的内容创作者也纷纷加入了起诉人工智能(AI)公司的行动,对科技公司未经授权或补偿使用他们的创作内容表示不满。新闻机构也对此进行了批评,指责科技公司在未经授权的情况下使用了他们的新闻内容。
纽约时报考虑对OpenAI提起诉讼
以纽约时报为例,他们正在考虑对OpenAI提起诉讼。纽约时报指称OpenAI的ChatGPT使用了他们的数据进行训练,但未经过允许。在过去几个月中,OpenAI和纽约时报一直在试图达成有关许可协议,但目前尚未取得实质性的结果,可能会导致谈判破裂。
纽约时报更改服务条款政策
在最近的服务条款政策更改中,纽约时报明确禁止将他们的媒体档案用于训练任何软件程序,包括但不限于机器学习和人工智能系统。这一政策适用于纽约时报的文本内容、照片、视频和元数据,并明确禁止网络爬虫访问这些数据进行专有产品的训练。
法律判定可能对OpenAI产生影响
如果法院判定OpenAI等人工智能公司的训练行为构成侵权,OpenAI可能会被迫停止使用受版权保护的数据,并在不使用这些数据的前提下重新构建算法。这将会引发一系列复杂的问题和挑战。
科技公司与新闻媒体的关系
科技公司试图与新闻媒体建立关系。例如,谷歌曾试图争取新闻机构如纽约时报、华盛顿邮报等的支持,向他们推销人工智能工具。一些AI公司也向新闻非营利机构提供慈善捐款。但也有新闻机构采取不那么强硬的立场。
合作与许可协议的例子
一些案例中,科技公司与新闻机构建立了合作关系。美联社就与OpenAI达成了为期两年的许可协议,允许OpenAI使用他们的内容进行训练。作为回报,OpenAI提供了美联社访问他们技术和产品专业知识的权利。
这些纷争和合作反映了在人工智能时代,内容创作者、新闻机构和科技公司之间权益和合法性的复杂平衡问题,也突显出了保护知识产权和创意的紧迫性。
悬在 AI 公司头上的剑
随着AI公司大规模抓取互联网数据,一系列法律问题逐渐浮出水面,导致起诉AI公司的案件逐渐增多。今年,美国多家律所相继对OpenAI、Meta等知名巨头提起诉讼,指控其未经同意、未获授权或未提供补偿地使用成千上万名作家的作品,以用于其庞大的语言模型训练。业内预计,这一诉讼潮势必会扩大,因为其他内容创作者也可能受此启发采取法律行动。
除了OpenAI和Meta,其他生成式AI公司也面临版权纠纷。Stability AI,该公司背后的AI图像生成工具“Stable Diffusion”正陷入版权官司。该工具是在LAION-5B数据集上进行训练的,该数据集包含近58.5亿个图像文本对,其中大部分都受版权保护。知名图片供应商Getty Images正在对Stability AI提起诉讼,指控其未经授权就在超过1200万张Getty Images图片上进行AI图像生成模型的训练。
艺术家和权益相关者纷纷表示不满,纷纷对Stability AI、DeviantArt、Midjourney等公司提起诉讼,指控侵犯版权、肖像权、不正当竞争和不正当获利等,寻求赔偿和禁令。
此外,微软推出的编程工具Copilot也陷入集体诉讼之中。Copilot是由GitHub与OpenAI合作开发的基于人工智能的自动编程产品,主要利用GitHub上的公共代码库进行训练,可通过简单提示生成代码。开源程序员和律师指控该工具涉嫌开源软件盗版,被告包括GitHub、微软以及人工智能技术合作伙伴OpenAI。
值得注意的是,AI公司可能会援引所谓的“公平使用原则”来为其辩护,该原则允许在某些情况下无需许可即可使用作品,包括教学、批评、研究和新闻报道。然而,关键问题在于AI训练是否适用于这一原则。几年前,美国作家协会曾对谷歌提起诉讼,谷歌未购买其图书馆项目中所包含的书籍,但联邦上诉法院判决认为,谷歌扫描数百万本书的数字副本属于合法的“公平使用”,因为其并未创造出与原作具有竞争关系的“重要市场替代品”。
随着各国政府努力将生成式AI纳入法律范畴,欧盟正制定一项AI法案,要求公司透明化其训练模型信息。美国作家协会今年上半年已两次访问国会,讨论生成式AI与作家权益保护措施等问题,涉及集体授权、版权保护、反垄断豁免权以及AI透明度要求等议题。协会在一份声明中指出:“除非国会采取干预措施,以确保监管生成式AI技术的发展与使用,否则保护版权、鼓励原创表达、丰富文化交流的重要激励将变得毫无意义。”
在舆论中,尽管一些人担心AI训练可能引发版权问题,但也有人认为,AI公司不需要特别的许可协议来训练模型,因为过多的版权担忧可能阻碍AI的进步。同时,还有人主张取得作者的同意至关重要,创作者应有拒绝使用其作品的权利,或者至少AI公司应该购买训练数据中涉及的书籍。当前,技术正在创造前所未有的历史性变革,对于开源精神在AI训练数据领域是否应有底线的问题也引发了广泛关注。未来的法律环境将是促进还是限制,如何平衡AI的发展与尊重人类创作权益,将成为与“通用人工智能何时问世”同样重要的议题。