一项新研究警告称,人工智能可能显著降低恶意行为者识别匿名社交媒体账户的门槛。研究显示,在多数测试场景中,支撑ChatGPT等平台的大型语言模型(LLM)能够依据用户公开发布的信息,将匿名网络用户与其在其他平台上的身份信息进行匹配。
人工智能研究员西蒙·勒尔门(Simon Lermen)和丹尼尔·帕莱卡(Daniel Paleka)在论文中表示,LLM使复杂隐私攻击的执行成本变得可控,促使外界“对什么可以被视为在线隐私进行根本性重新评估”。
在实验中,研究人员将匿名账户交由人工智能系统处理,要求其抓取所有可用信息。论文给出一个假设案例:某用户谈及在学校遇到的困难,并提到带着名为“Biscuit”的狗在“多洛雷斯公园”散步。研究描述称,系统随后在其他渠道检索这些细节,并以较高信心将@anon_user42与已知身份进行关联。
尽管上述案例为虚构,作者强调了潜在应用场景,包括政府利用人工智能监控匿名发布内容的异见人士和活动家,以及黑客借助相关能力发起“高度个性化”的诈骗。
研究还指出,人工智能监控正成为快速发展的领域,引发计算机科学家与隐私专家的警惕。相关系统可综合个人在线信息,而这类信息整合对多数人而言难以手动完成。勒尔门表示,公众在网上易于获取的信息已经可能“被直接滥用”用于诈骗,包括鱼叉式网络钓鱼,即攻击者冒充可信朋友诱导受害者点击收件箱中的恶意链接。研究认为,随着实施更高级攻击所需的专业技能门槛下降,黑客可能只需获得公开语言模型的访问权限和互联网连接即可。

伦敦大学学院计算机科学教授彼得·本特利(Peter Bentley)表示,外界担忧该技术的商业用途,“如果以及当出现去匿名化产品时”可能带来问题。他同时指出,大型语言模型在关联账户时常会出错,可能导致“人们被指控做过他们未曾做过的事情”。
爱丁堡大学网络安全讲师马克·胡亚雷斯教授(Marc Juárez)则提出,LLM可能利用社交媒体之外的公共数据,包括医院记录、入院数据以及各类统计发布;他认为,这些数据在人工智能时代可能达不到所需的高标准匿名化要求,并称“这相当令人震惊”,论文表明“应该重新考虑我们的做法”。
研究也指出,人工智能并非识别在线匿名的“万能工具”。虽然大型语言模型在许多情况下可以实现去匿名化,但当信息不足时难以得出结论;在不少场景中,潜在匹配对象数量过多,也会使范围难以收敛。
加州大学伯克利分校信息学院教授马蒂·赫斯特(Marti Hearst)表示,这类模型“只能跨平台关联那些在两个地方持续分享相同信息片段的人”。
尽管技术并不完美,研究人员呼吁机构与个人重新思考在人工智能时代的数据匿名化方式。勒尔门建议,平台可优先从限制数据访问入手,包括对用户数据下载实施速率限制、检测自动抓取行为、限制批量导出数据;同时,他也表示个人用户可对自身在线分享的信息采取更严格的防范措施。
