维基百科在庆祝成立25周年之际宣布,与多家人工智能公司签署新的商业合作协议,进一步规范后者对其内容的使用,并为网站运营引入新的收入来源。
多家科技公司签约
运营维基百科的非营利机构维基媒体基金会表示,已与亚马逊、Meta平台、Perplexity、微软以及法国的 Mistral AI 等公司达成协议。这些公司将为访问维基百科内容付费,以便“按照其特定需求的数量和速度”获取数据。基金会未披露具体财务条款或其他细节。
基金会早在 2022 年就将谷歌纳入首批企业客户之一,并在去年宣布与包括搜索引擎 Ecosia 在内的较小型人工智能企业达成合作。基金会称,这些协议有助于全球访问量最高的网站之一在人工智能公司带来大量流量的背景下实现商业变现。
人工智能训练与成本分担
维基百科长期被视为早期互联网“免费知识空间”的代表之一,但随着大型科技平台崛起以及依赖网络抓取内容训练的生成式人工智能聊天机器人兴起,这一模式正面临新压力。
人工智能开发者广泛使用包括维基百科在内的大规模开放知识库,引发了关于谁应承担人工智能繁荣背后成本的讨论。维基媒体基金会去年呼吁人工智能开发者通过其企业平台付费访问数据,并指出,网站的人类访问量下降了 8%,与此同时,伪装成普通用户以规避检测的机器人访问激增,严重消耗服务器资源,这些机器人会抓取大量内容以训练大型语言模型。
维基百科创始人吉米·威尔士在接受美联社采访时表示,网站的立场是与人工智能公司合作,而非阻止其使用内容,但强调“你们应该为给我们带来的成本公平分担费用”。
维基媒体基金会首席执行官玛丽安娜·伊斯坎德尔在南非约翰内斯堡接受采访时指出,维基百科对用户免费开放是其受欢迎的重要原因之一,但“我们的基础设施并非免费”。她表示,维护服务器和其他基础设施需要资金,这些设施支撑着个人用户和科技公司“从维基百科提取数据”。伊斯坎德尔将于 1 月 20 日卸任,由伯纳黛特·米汉接任。
根据基金会介绍,维基百科的大部分资金来自约 800 万名捐赠者,其中大多数为个人。威尔士说,这些捐赠者“并不是为了补贴这些庞大的人工智能公司而捐款”,他们的态度是,企业不能“随意破坏我们的网站”,而应以合规方式访问。
威尔士对人工智能训练持开放态度
在其他领域,人工智能训练已引发围绕版权等问题的法律争议。威尔士则表示,他“个人非常高兴人工智能模型以维基百科数据进行训练,因为这些数据是人工策划的”。
他在谈及埃隆·马斯克旗下社交媒体平台 X 时称,他“不想使用仅基于 X 训练的人工智能,比如一个非常愤怒的人工智能”。

威尔士认为,大型语言模型目前“还不足以撰写高质量的参考资料”,许多内容只是对维基百科的重复,而且“往往内容冗长且胡言乱语”,研究主题越冷门,问题越明显。他强调,这并非针对某一具体产品,而是“大型语言模型的工作方式”。
人工智能在维基百科内部的潜在应用
维基媒体基金会已制定人工智能战略。威尔士表示,人工智能工具有望减轻志愿编辑者的部分繁琐工作。
他称,人工智能目前尚不足以从零撰写维基百科条目,但可以用于更新失效链接,例如通过扫描条目周边文本并在线搜索替代来源。他表示,“我们还没有实现这一点,但我认为未来会看到这样的应用”。
威尔士还提到,人工智能有可能改善维基百科的搜索体验,使其从传统关键词搜索演变为更接近聊天机器人的交互方式。他设想,用户向维基百科搜索框提问后,系统可以直接引用维基百科内容作答,并标明“这是这篇文章中对你问题的回答,这就是实际段落”。在他看来,这样的功能“非常有用”,网站也可能朝这一方向发展。
流量格局与在线趋势变化
维基媒体基金会的观察显示,搜索引擎的人工智能概览功能和聊天机器人正改变用户获取信息的路径,越来越多服务通过总结信息而非展示链接来引导访问。这一趋势被认为是人类访问量下降、机器人访问上升的背景之一。
目前,维基百科是全球访问量排名第九的网站,拥有超过 6,500 万篇条目,覆盖 300 种语言,由约 25 万名志愿者编辑。
外部批评与政治关注
近年来,维基百科受到部分政治右翼人士批评,他们将该网站称为“觉醒百科”,指责其存在左翼偏向。美国国会中的共和党议员正在调查维基百科编辑流程中的所谓“操纵行为”,称这些做法可能引入偏见,影响平台及依赖其数据的人工智能系统的中立性。
马斯克是批评来源之一。他去年推出了人工智能驱动的竞争产品 Grokipedia,并指责维基百科充斥“宣传”,呼吁公众停止向该网站捐款。威尔士表示,他不认为 Grokipedia 对维基百科构成“真正威胁”,并重申大型语言模型在生成高质量参考资料方面的局限。
威尔士说,他与马斯克相识多年,但自 Grokipedia 推出后双方未再联系。他表示,“可能应该联系他一下”,如果联系,对话内容会是“你家人怎么样?”,并称自己“不想和任何人争吵”。
在回顾维基百科早期发展时,威尔士表示,那是“充满激情和可能性的时代”,许多人受到激励参与建设这一项目。他同时指出,早期互联网也存在阴暗面,“那时人们也相当有毒,我们不需要算法来互相刻薄”。
