澳大利亚人在全球范围内对人工智能(AI)的焦虑程度位居前列。
这种焦虑主要来自几个方面:人们担心AI被用来散布虚假信息和实施诈骗;担心自动化导致失业;也担心AI公司在没有补偿的情况下,利用他人的专业知识和创作成果来训练模型。
AI公司往往会使用盗版书籍和文章,并频繁派出自动化程序在互联网上系统性抓取内容,为模型提供训练数据。这些内容来源广泛,包括Reddit等社交媒体平台、大学的学术论文库,以及新闻媒体等权威出版物。
过去,网络抓取处在一种相对“默契”的状态。尽管在某些情况下抓取在法律上可能存在问题,但它被视为互联网正常运转的基础之一——没有抓取,就不会有搜索引擎如谷歌。网站所有者通常默认接受抓取,因为这能提升内容的可见度,也符合“开放网络”的理想。
在这种背景下,抓取行为长期依靠尊重、认可和互惠等非正式原则来维系。但在AI大规模应用的时代,这些原则正在被动摇。
新的网络生态
如今,越来越多的新闻机构开始主动阻止网络抓取工具访问其内容。许多创作者也选择不用某些平台,或者减少公开发布的内容量。
开放网络正在被各种“门槛”和“围墙”分割。当只有一部分人能负担得起获取新闻和信息的费用时,民主讨论、科学创新以及创意社群都会受到影响。
现有的版权例外条款,例如“合理使用”或“合理交易”中与研究、学习相关的部分,都是在生成式AI广泛出现之前制定的。这些规则在AI时代显得力不从心。
澳大利亚政府已经明确,不会为文本和数据挖掘(text and data mining)专门设立新的版权例外。这一立场在支持本国创意产业的同时,也带来了新的不确定性:在AI公司持续大规模爬取网络内容的现实下,如何在法律框架内管理创意作品的使用,仍然没有清晰答案。
在此背景下,国际非营利组织 Creative Commons 提出了一个新的自愿性框架:CC Signals。
Creative Commons 许可本身,是让创作者在保留部分权利的前提下,明确授权他人如何使用其作品的工具。所有CC许可都要求署名,但可以附加不同限制,例如禁止修改作品,或禁止商业用途。比如,《The Conversation》的文章采用的是 CC BY-ND 许可,意味着他人可以转载,但必须注明来源,且不得改编或创作衍生作品。
CC Signals 如何运作?
新提出的 CC Signals 框架,旨在让创作者可以决定机器是否、以及如何使用他们的内容。它试图在“负责任地使用AI”和“不扼杀创新”之间找到平衡,核心原则是同意、补偿和署名。
简单来说,CC Signals 允许“声明方”(例如一家新闻网站)为某段内容附加一组机器可读的指令。这些指令会说明:允许哪些类型的机器使用,以及在什么条件下使用。
CC Signals 的设计是标准化的,既能被人类理解,也能被机器自动识别和执行。

这一提案出现的时机,与互联网早期非常相似。当时,关于自动访问网站(如爬取和抓取)的规则,更多是通过实践和行业规范形成,而不是通过法律直接规定。
一个常被提及的历史类比是 robots.txt 文件。网站所有者可以通过这个简单文件告诉爬虫:网站哪些部分可以访问,哪些不可以。robots.txt 从来没有法律强制力,但因为它提供了一种清晰、统一的沟通方式,最终被广泛采用。
CC Signals 可能会以类似的方式发挥作用。不过,和任何系统一样,它既有潜在优势,也存在明显局限。
潜在优势
与目前“要么抓取、要么完全禁止抓取”的二元状态相比,CC Signals 提供了更细致、更灵活的选项,让创作者对其内容的机器使用方式拥有更大的主动权。
这一框架还有可能影响可供抓取的高质量内容的总体规模。如果高质量数据减少,AI系统的偏见问题可能会进一步加剧,其实际效用也会下降。
此外,CC Signals 可能对那些缺乏与大型科技公司谈判能力的小型机构或个人创作者尤其有利。他们可以通过这一框架,表达对补偿、署名或曝光的具体期待,而不必完全被动接受“大平台的游戏规则”。
现实难题
CC Signals 面临的最大挑战之一,是如何在实践中落实——尤其是如何计算、收取并执行某些信号中涉及的金钱或实物支持。
这也是内容产业在推动“AI集体许可”方案时遇到的核心难点:要为全球生成式AI系统访问的成千上万、甚至数百万件网络作品计算许可费用,并合理分配给权利人,几乎是一个后勤上的噩梦。
Creative Commons 表示,未来会制定基于 CC Signals 的贡献和署名“最佳实践”指南,但目前这些工作仍在进行中,尚未定型。
未来展望:为机器制定“礼仪”
Creative Commons 强调,CC Signals 更像是一套定义“机器礼仪”的规范,而不是严格的法律工具。从“礼仪”的角度理解它,或许更为贴切。
在AI系统中真正落实有效的版权管理,既有法律障碍,也有技术和操作层面的巨大难度。但我们仍然需要对新的理念和框架保持开放态度——在不阻碍关键技术发展的前提下,尽可能强化对创作者的尊重和认可。
CC Signals 并不完美,却是一个重要的起点。可以期待的是,未来会有更多类似的方案出现,共同探索在AI时代维护开放网络与创作者权益的新平衡。
本文依据 Creative Commons 许可从 The Conversation 改写整理。原文可在该网站查阅。
