数千人出售身份数据参与AI训练：从街景视频到通话录音，报酬与风险并存

商业 2026-03-22 科技最前沿人工智能, 数据隐私, 零工经济, 生物识别, 数据安全 29 次浏览

去年某个早晨，27岁的南非开普敦居民雅各布斯·卢（Jacobus Louw）像往常一样出门散步、喂海鸥。不同的是，他用手机录下了脚步声和人行道的画面，并将视频上传到Kled AI，完成一项名为“城市导航”的任务。卢称，这段视频为他带来14美元收入，约为当地最低工资的10倍；几周内，他通过上传日常图片和视频累计赚到50美元。

类似的“数据零工”正在不同国家出现。在印度兰契，22岁的学生萨希尔·蒂加（Sahil Tigga）允许众包音频应用Silencio访问手机麦克风，采集餐厅或繁忙路口的环境噪音，并上传自己的语音录音。他还会前往Silencio地图尚未覆盖的地点，例如酒店大堂。蒂加表示，自己每月收入超过100美元，足以覆盖食物开销。

在美国芝加哥，18岁的焊工学徒拉梅利奥·希尔（Ramelio Hill）则通过Neon Mobile出售与亲友的私人电话聊天录音获得数百美元。该平台对话式人工智能训练按每分钟0.50美元支付报酬。希尔称，他认为科技公司已掌握大量个人数据，因此选择“自己也从中分一杯羹”。

随着生成式人工智能对高质量“人类级”数据的需求上升，围绕照片、视频、音频等内容的交易平台正在扩张。报道指出，从开普敦到芝加哥，数千人正以“微许可”方式提供生物识别身份与隐私数据，用于训练下一代人工智能模型。

高质量训练数据趋紧，数据市场扩张

人工智能语言模型（如ChatGPT和Gemini）需要大量学习材料提升性能，但正面临数据短缺。报道提到，常用训练数据源C4、RefinedWeb和Dolma占据网络上最高质量数据集的四分之一，现已限制生成式人工智能公司使用其数据训练模型。研究人员估计，人工智能公司最早将在2026年耗尽新的高质量文本。

部分实验室开始使用人工智能生成的合成数据进行反馈训练，但报道指出，这种递归过程可能导致模型产生错误数据并最终崩溃。

在此背景下，Kled AI、Silencio等应用成为数据供给渠道。除上述平台外，报道还提到多家人工智能训练平台：由Y-Combinator支持的Luel AI以每分钟约0.15美元采购多语言对话；ElevenLabs允许用户数字克隆自己的声音，基础费用为每分钟0.02美元。

伦敦国王学院经济学教授布克·克莱因·蒂塞林克（Bouke Klein Teeselink）表示，零工人工智能训练是一种新兴工作类别，未来将大幅增长。他指出，人工智能公司向个人付费授权数据，有助于减少完全依赖网络抓取内容可能引发的版权纠纷。

人工智能研究员维尼亚明·韦塞洛夫斯基（Veniamin Veselovsky）则称，这些公司需要高质量数据来模拟系统中新改进的行为，并表示“目前，人类数据是模型分布外采样的黄金标准”。

报道同时指出，提供数据的人，尤其是发展中国家的人，往往出于现实经济压力参与其中。在失业率高、货币贬值的国家，赚取美元被认为更稳定、更有回报；即便在富裕国家，生活成本上升也使部分人将出售数据视为可行的补充收入来源。

授权条款与透明度引发担忧

报道指出，这类零工经济伴随隐性代价：部分平台的协议要求贡献者授予不可撤销、免版税许可，并允许公司制作“衍生作品”。这意味着，今天的语音录音可能在未来多年被用于驱动人工智能客服机器人，而贡献者不再获得额外报酬。

此外，由于市场透明度有限，用户数据可能被纳入面部识别数据库或被用于定向广告等用途，贡献者往往难以获知数据去向，也缺乏有效救济途径。

卢表示自己理解隐私方面的权衡。尽管收入不稳定且不足以覆盖全部月度开销，他仍愿意接受条件以获得收入。卢称自己长期受神经系统疾病困扰、难以找到工作，而通过包括Kled AI在内的平台赚到的钱，使他得以存钱参加价值500美元的按摩培训课程。

卢说：“作为南非人，获得美元支付比人们想象的更有价值。”

牛津大学互联网地理学教授、《喂养机器》作者马克·格雷厄姆（Mark Graham）表示，这笔钱对发展中国家的个人短期内意义重大，但他警告称，从结构上看，这类工作“不稳定、无进步且实际上是死胡同”。他还称，这些市场依赖“工资底线竞争”和“对人类数据的暂时需求”，一旦需求变化，工人可能面临“无可转移技能且无安全网”的处境，并认为“全球北方的平台”获取了持久价值。

安全事件与“全权许可”条款

希尔对出售私人通话录音的做法感到矛盾。他称，约11小时通话为他带来200美元，但Neon Mobile经常离线且未及时付款，“一直很可疑”，但他仍为支付账单继续使用。

报道提到，今年9月，Neon Mobile上线数周后，TechCrunch发现其存在安全漏洞，任何人都能访问用户电话号码、通话录音和文字记录，随后该应用下线。希尔表示，Neon Mobile从未告知他此事，他担心自己的声音会被网络滥用。Neon Mobile未回应置评请求。

斯坦福以人为中心人工智能研究所的数据隐私研究员詹妮弗·金（Jennifer King）表示担忧，称人工智能市场对用户数据的使用方式和去向不透明，“消费者面临数据被以他们不喜欢、不理解或未预料的方式重新利用的风险，而他们几乎没有救济途径”。

报道指出，当训练者在Neon Mobile和Kled AI分享数据时，通常授予“全权许可”，即全球范围、独家、不可撤销、可转让且免版税的许可，允许平台出售、使用、公开展示和存储其肖像，并可创造衍生作品。

Kled AI创始人阿维·帕特尔（Avi Patel）表示，公司数据协议限制数据仅用于人工智能训练和研究，并称平台在出售数据集前会审查买家，避免与“意图可疑”的业务（如色情）及可能违背信任的“政府机构”合作。

伦敦圣乔治大学法学教授恩里科·博纳迪奥（Enrico Bonadio）表示，这类协议条款使平台及其客户“几乎可以永远对材料做任何事情，无需额外支付，贡献者也无法撤回同意或有效重新谈判”。他还指出，即便平台声称会剥离姓名和位置等信息，生物识别模式本身也难以实现真正匿名，数据仍可能被用于深度伪造和冒充。

参与者的后悔：肖像被用于不当内容

报道还提到，即使存在更细致的使用限制，贡献者仍可能事后后悔。纽约演员亚当·科伊（Adam Coy）称，他在2024年以1000美元将自己的肖像出售给人工智能视频编辑器Captions（现称Mirage）。协议规定其身份不会用于政治目的，也不会用于销售酒精、烟草及色情内容，许可期限为一年。Captions未回应置评请求。

科伊表示，不久后朋友开始转发网上流传的视频，其中他的面孔和声音获得数百万观看。在一段Instagram短视频中，他的人工智能复制品自称“阴道医生”，并推广针对孕妇和产后女性的未经证实的医疗补充品。科伊称，向他人解释此事让他感到尴尬，并表示评论区对其外貌的讨论“并不是真正的我”。

科伊说，他当时的想法是，许多模型反正会抓取网络上的数据和肖像，“干脆拿钱”。他表示此后未再参与任何人工智能数据工作，并称只有在公司提供丰厚报酬时才会考虑再次参与。

发表评论

登录后才可评论。去登录