英国生物样本库数据被挂售事件
英国生物样本库(UK Biobank)的首席执行官近日向超过 50 万名参与者发出公开信,告知他们:部分来自这一全球最大生物医学数据库之一的数据,被人通过中国网站公开挂牌出售。
需要强调的是,这并不是一次传统意义上的“数据泄露”或黑客攻击事件,而是合法获得数据访问权限的研究人员,试图将其中一部分数据转售牟利。
声明指出,这批数据经过处理,无法直接识别具体参与者,目前也没有证据显示这些数据已经被实际购买。但有人尝试出售数据本身这一事实,依然极具警示意义。问题的关键,很可能不在生物样本库自身的技术防护,而在于获得访问权限的研究人员是否守规守信。
这也引出了一个更大的疑问:在当今环境下,任何数据真的有可能被“完全保护”吗?
数据保护的现实困境
包括英国生物样本库在内的许多大型数据库,都建立了所谓“安全研究环境”,通过技术和制度手段限制访问者的行为。例如:
- 通过安全计算机终端或专用平台访问数据(英国生物样本库采用的正是这种方式);
- 限制研究人员只能下载分析结果,而不能直接下载原始数据。
然而,只要数据真实存在,就始终存在因疏忽或不诚信行为而外泄的风险。法律工具(如数据保护法)可以赋予监管机构和执法部门一定权力,阻止或追究此类行为。但在跨国网络环境和各国隐私观念差异巨大的现实下,法律的实际效力往往有限。
有报道指出,英国生物样本库的数据曾经有 198 次“意外暴露”的记录,这从侧面说明,即便在高度重视隐私保护的体系内,风险依然难以完全消除。
更棘手的是,随着先进人工智能工具的普及,即便是经过匿名化处理的数据,也越来越容易被“去匿名化”。人工智能可以从复杂的多维数据中挖掘出人类难以察觉的模式和关联,从而在一定条件下重新指向具体个体。
在这样的背景下,我们是否只能退回纸笔和文件柜时代?还是必须重新思考我们对数据及其安全性的整体策略?
风险与收益:我们究竟在担心什么?
公众对数据广泛流通的直观担忧,通常集中在以下几类风险:
- 成为诈骗、勒索或贿赂的目标;
- 被商业机构利用数据牟取巨额利润;
- 数据被用于个人难以接受甚至不知情的用途。
这些担忧的严重程度,与数据类型密切相关。比如:
- 个人财务信息、通话记录以及大量日常生活细节,显然需要高度保密;
- 而对于健康数据,尤其是类似英国生物样本库这样的大规模健康与基因数据,巨大的潜在社会价值,是否会改变我们对风险与损害的权衡?
在欧洲和英国,医疗保密被视为一项基本人权。掌握他人的健康内部信息,确实可能被用来施压、操控或歧视他人,为不正当利益滥用此类信息必须被视为违法并受到惩罚。
将健康数据开放给保险公司或雇主,则是一个更具争议的问题。一方面,我们承认这些机构在一定范围内需要了解健康状况来开展业务;另一方面,许多人对“完全透明”的健康信息共享感到不安。这正是数据保护法试图介入和限制的领域,尽管这些法律本身也需要不断修订和强化。
但如果视角从“个人”转向“群体”,健康数据的价值会发生明显变化。人类在生物学和心理学层面都极其复杂,研究者往往需要覆盖大量个体,才能从中识别出可靠的规律和趋势。

问题在于:如何在保护个人隐私的同时,充分释放群体健康数据的科研价值?
“无知之幕”下的健康数据
哲学家约翰·罗尔斯提出过一个著名的思维实验——“无知之幕”。他建议,在思考社会制度何为公正时,应暂时“忘记”自己的具体身份:不考虑自己的种族、性别、阶层、智力水平和健康状况,而是从一个“可能是任何人”的立场出发,设计规则。
如果把“无知之幕”应用到健康数据问题上,会得出怎样的结论?
首先,汇总健康数据本身并不新鲜,这正是英国生物样本库存在的基础。迄今为止,该库已支持发表超过 18,000 篇研究论文。从“无知之幕”的角度看,数据越多、覆盖人群越广,越有利于发现疾病机理、改进诊疗和预防策略。
其次,现代医学与生命科学研究高度复杂,往往需要跨学科、跨机构、跨国界的合作。英国生物样本库的数据已经被来自 60 多个国家的 22,000 名研究人员使用。如果站在“可能是任何人”的立场,似乎越多研究者能够免费、便捷地使用这些数据,越有利于尽快产生对所有人都有益的成果。
当然,必要的安全和伦理保障仍然不可或缺。但随着数据分析工具和人工智能能力的提升,仅靠技术和访问控制来防止“过度共享”变得越来越困难。也许我们需要把重点,从“限制数据可获得性”,转向“规范数据被获取之后可以做什么”。
从“保护数据”到“规范使用”
这次英国生物样本库数据被挂售的事件,以及其他数据库几乎每天都在遭遇的网络攻击和泄露案例,都在提醒我们:
- 只要数据存在,试图通过技术和制度手段实现“绝对安全”,很可能终究难以成功;
- 与其把主要精力放在“堵死一切可能的出口”,不如承认某些类型的数据在事实上已经接近一种“公共资源”。
如果把大规模健康数据视作一种公共资源,那么伦理上的核心义务,就不再是“绝对不让数据流出”,而是“确保数据被以合乎规范的方式使用”。
这当然意味着,商业机构甚至外国政府,可能会以我们个人并不赞同的方式使用这些数据。但对企业行为或他国行为的不满,本身并不是新问题。我们已经在其他公共资源领域(如环境、能源、海洋资源等)通过政治谈判和国际协定,建立起一套不完美但可运作的规则体系。
健康数据同样可以纳入类似的治理框架之中。现有法律已经对企业在数据使用上的“可为”与“不可为”做出了一定规定,未来也可以进一步细化和强化。
如果说:
- 完全开放的数据共享,潜在科研与公共健康收益极其巨大;
- 而现实又一再表明,我们很难从根本上阻止这类数据集被复制、外流或滥用;
那么,也许是时候重新调整策略:
- 不再把主要精力放在“绝对保护数据不被流出”这一几乎不可能完成的任务上;
- 而是转向构建更完善的法律、伦理和国际规则体系,重点约束和监管数据被获取之后的用途。
在这样的框架下,开放数据不再意味着“放任不管”,而是以更透明、更可追责的方式,让数据在可控的规则内最大化发挥公共价值。