在人工智能行业争夺训练数据的背景下,一家开发大模型的初创公司被曝将目光投向二手印刷书籍,并以工业化方式将其转化为训练语料:批量购书、高速扫描,随后将实体书送往造纸厂粉碎处理。相关做法引发图书馆界、作者群体与技术行业之间的关注与争议,焦点集中在纸质知识载体在数字化过程中应被保存还是被消耗。
报道所指公司为Anthropic。该公司开发了聊天机器人Claude。据披露,Anthropic投入数百万美元购买数百万册二手书,并通过外部服务商完成数字化处理;在这一过程中,作品作者未获得补偿或明确授权。报道形容,实体书在该流程中被视为可消耗的原材料,而非需要长期保存的文化资源。
扫描与销毁的供应链流程
据报道,Anthropic及其合作伙伴通常以批量方式采购二手印刷书籍,随后通过高速扫描设备将内容转为数字文本或图像数据,扫描完成后再将实体书运往造纸厂粉碎。相关报道指出,这一模式依赖服务提供商完成数字化与后续处理。
2024年初,Anthropic内部还讨论了进一步扩大规模的方案。内部提案显示,公司曾考虑与大型书商达成合作,以获取库存用于扫描并销毁。报道提到,Anthropic高管曾向纽约书店Strand提出涉及大量书籍扫描与销毁的计划。Strand发言人Reached表示,书店仍在评估应对方案,“我们正在努力处理此事”。
为何选择“买书—扫描—粉碎”
从Anthropic的角度看,印刷书籍仍是长篇写作的重要来源,文本质量与编辑规范性较高,能够为语言模型提供多样化语料。报道援引法律分析称,通过购买二手书获得实体所有权后再进行扫描,相关数据可被整理为可重复使用的数据集;批评者认为,这种做法在仅支付二手购书成本的情况下吸收大量作品内容,可能利用了版权制度中的空间。Anthropic则坚持其行为合法。
实体销毁也成为外界争议的象征。相关报道描述了整托盘书籍被粉碎的场景,并将其视为AI公司在追求规模化数据获取时对文化物质载体“抹除”的直观体现。

非破坏性数字化路径的对照
报道指出,销毁并非书籍数字化的唯一方式。图书馆与档案机构长期采用非破坏性扫描技术,在不损坏装订的情况下生成数字副本。例如,互联网档案馆开发的Table Top Scribe系统可在不剪断书脊的前提下采集页面图像,以尽量保留实体书完整性。
在这一对照下,报道认为,是否销毁更多体现为商业选择:非破坏性扫描通常速度更慢、成本更高,也要求将实体书视为需要保存的对象。批评者尤其担忧的是,二手市场中可能包含绝版或小众作品,若被批量销毁,可能导致实体副本进一步减少。报道同时提到,购买二手实体书也使相关书籍不会“再度上架”。
合理使用裁定与作者担忧
在法律层面,报道提到,Anthropic的相关策略已获得一项重要司法支持:在一宗备受关注的案件中,联邦法官裁定Anthropic将书籍用于训练属于合理使用,至少在该案具体事实下成立。判决强调,公司购买实体书并用于训练模型,而非直接销售复制品,相关“中间复制”在该案情境下可能合法。
不过,法律学者也提醒,这并非最终结论。相关分析指出,法院对Anthropic和Meta的判决“仍留有未来败诉的空间”,尤其在原告能够证明AI输出对原作形成替代、或复制行为对特定市场造成损害的情况下。作者团体则表示,即便流程在现阶段可能被认定为合法,作者在作品被用于训练时缺乏通知、同意与补偿,可能削弱版权制度所强调的经济激励,并担心该模式被更多AI公司效仿。
书籍语料与Claude能力
报道还将Anthropic对书籍的需求与Claude能力联系起来:通过处理数百万册书籍,模型可学习叙事、论证与文体等模式,这些内容在网络文本中未必同等充分。报道认为,以书籍为主的语料库有助于提升模型在长篇推理与复杂指令处理方面的表现,而Anthropic对二手书的投入被视为其对“精选印刷内容可带来更优模型”的押注。与此同时,扫描与粉碎等环节构成了用户在使用聊天机器人时难以直接看到的训练数据供应链。
