数千人出售身份数据参与AI训练:从街景视频到通话录音,报酬与风险并存

去年某个早晨,27岁的南非开普敦居民雅各布斯·卢(Jacobus Louw)像往常一样出门散步、喂海鸥。不同的是,他用手机录下了脚步声和人行道的画面,并将视频上传到Kled AI,完成一项名为“城市导航”的任务。卢称,这段视频为他带来14美元收入,约为当地最低工资的10倍;几周内,他通过上传日常图片和视频累计赚到50美元。

类似的“数据零工”正在不同国家出现。在印度兰契,22岁的学生萨希尔·蒂加(Sahil Tigga)允许众包音频应用Silencio访问手机麦克风,采集餐厅或繁忙路口的环境噪音,并上传自己的语音录音。他还会前往Silencio地图尚未覆盖的地点,例如酒店大堂。蒂加表示,自己每月收入超过100美元,足以覆盖食物开销。

在美国芝加哥,18岁的焊工学徒拉梅利奥·希尔(Ramelio Hill)则通过Neon Mobile出售与亲友的私人电话聊天录音获得数百美元。该平台对话式人工智能训练按每分钟0.50美元支付报酬。希尔称,他认为科技公司已掌握大量个人数据,因此选择“自己也从中分一杯羹”。

随着生成式人工智能对高质量“人类级”数据的需求上升,围绕照片、视频、音频等内容的交易平台正在扩张。报道指出,从开普敦到芝加哥,数千人正以“微许可”方式提供生物识别身份与隐私数据,用于训练下一代人工智能模型。

高质量训练数据趋紧,数据市场扩张

人工智能语言模型(如ChatGPT和Gemini)需要大量学习材料提升性能,但正面临数据短缺。报道提到,常用训练数据源C4、RefinedWeb和Dolma占据网络上最高质量数据集的四分之一,现已限制生成式人工智能公司使用其数据训练模型。研究人员估计,人工智能公司最早将在2026年耗尽新的高质量文本。

部分实验室开始使用人工智能生成的合成数据进行反馈训练,但报道指出,这种递归过程可能导致模型产生错误数据并最终崩溃。

在此背景下,Kled AI、Silencio等应用成为数据供给渠道。除上述平台外,报道还提到多家人工智能训练平台:由Y-Combinator支持的Luel AI以每分钟约0.15美元采购多语言对话;ElevenLabs允许用户数字克隆自己的声音,基础费用为每分钟0.02美元。

伦敦国王学院经济学教授布克·克莱因·蒂塞林克(Bouke Klein Teeselink)表示,零工人工智能训练是一种新兴工作类别,未来将大幅增长。他指出,人工智能公司向个人付费授权数据,有助于减少完全依赖网络抓取内容可能引发的版权纠纷。

人工智能研究员维尼亚明·韦塞洛夫斯基(Veniamin Veselovsky)则称,这些公司需要高质量数据来模拟系统中新改进的行为,并表示“目前,人类数据是模型分布外采样的黄金标准”。

报道同时指出,提供数据的人,尤其是发展中国家的人,往往出于现实经济压力参与其中。在失业率高、货币贬值的国家,赚取美元被认为更稳定、更有回报;即便在富裕国家,生活成本上升也使部分人将出售数据视为可行的补充收入来源。

授权条款与透明度引发担忧

报道指出,这类零工经济伴随隐性代价:部分平台的协议要求贡献者授予不可撤销、免版税许可,并允许公司制作“衍生作品”。这意味着,今天的语音录音可能在未来多年被用于驱动人工智能客服机器人,而贡献者不再获得额外报酬。

此外,由于市场透明度有限,用户数据可能被纳入面部识别数据库或被用于定向广告等用途,贡献者往往难以获知数据去向,也缺乏有效救济途径。

卢表示自己理解隐私方面的权衡。尽管收入不稳定且不足以覆盖全部月度开销,他仍愿意接受条件以获得收入。卢称自己长期受神经系统疾病困扰、难以找到工作,而通过包括Kled AI在内的平台赚到的钱,使他得以存钱参加价值500美元的按摩培训课程。

卢说:“作为南非人,获得美元支付比人们想象的更有价值。”

牛津大学互联网地理学教授、《喂养机器》作者马克·格雷厄姆(Mark Graham)表示,这笔钱对发展中国家的个人短期内意义重大,但他警告称,从结构上看,这类工作“不稳定、无进步且实际上是死胡同”。他还称,这些市场依赖“工资底线竞争”和“对人类数据的暂时需求”,一旦需求变化,工人可能面临“无可转移技能且无安全网”的处境,并认为“全球北方的平台”获取了持久价值。

安全事件与“全权许可”条款

希尔对出售私人通话录音的做法感到矛盾。他称,约11小时通话为他带来200美元,但Neon Mobile经常离线且未及时付款,“一直很可疑”,但他仍为支付账单继续使用。

报道提到,今年9月,Neon Mobile上线数周后,TechCrunch发现其存在安全漏洞,任何人都能访问用户电话号码、通话录音和文字记录,随后该应用下线。希尔表示,Neon Mobile从未告知他此事,他担心自己的声音会被网络滥用。Neon Mobile未回应置评请求。

斯坦福以人为中心人工智能研究所的数据隐私研究员詹妮弗·金(Jennifer King)表示担忧,称人工智能市场对用户数据的使用方式和去向不透明,“消费者面临数据被以他们不喜欢、不理解或未预料的方式重新利用的风险,而他们几乎没有救济途径”。

报道指出,当训练者在Neon Mobile和Kled AI分享数据时,通常授予“全权许可”,即全球范围、独家、不可撤销、可转让且免版税的许可,允许平台出售、使用、公开展示和存储其肖像,并可创造衍生作品。

Kled AI创始人阿维·帕特尔(Avi Patel)表示,公司数据协议限制数据仅用于人工智能训练和研究,并称平台在出售数据集前会审查买家,避免与“意图可疑”的业务(如色情)及可能违背信任的“政府机构”合作。

伦敦圣乔治大学法学教授恩里科·博纳迪奥(Enrico Bonadio)表示,这类协议条款使平台及其客户“几乎可以永远对材料做任何事情,无需额外支付,贡献者也无法撤回同意或有效重新谈判”。他还指出,即便平台声称会剥离姓名和位置等信息,生物识别模式本身也难以实现真正匿名,数据仍可能被用于深度伪造和冒充。

参与者的后悔:肖像被用于不当内容

报道还提到,即使存在更细致的使用限制,贡献者仍可能事后后悔。纽约演员亚当·科伊(Adam Coy)称,他在2024年以1000美元将自己的肖像出售给人工智能视频编辑器Captions(现称Mirage)。协议规定其身份不会用于政治目的,也不会用于销售酒精、烟草及色情内容,许可期限为一年。Captions未回应置评请求。

科伊表示,不久后朋友开始转发网上流传的视频,其中他的面孔和声音获得数百万观看。在一段Instagram短视频中,他的人工智能复制品自称“阴道医生”,并推广针对孕妇和产后女性的未经证实的医疗补充品。科伊称,向他人解释此事让他感到尴尬,并表示评论区对其外貌的讨论“并不是真正的我”。

科伊说,他当时的想法是,许多模型反正会抓取网络上的数据和肖像,“干脆拿钱”。他表示此后未再参与任何人工智能数据工作,并称只有在公司提供丰厚报酬时才会考虑再次参与。


分享:


发表评论

登录后才可评论。 去登录