研究:生成式人工智能或降低机器学习成本,却放大安全与隐私风险

使用生成式人工智能参与机器学习系统的设计、训练或执行环节存在潜在风险。计算机科学家 Micheal Lones 在期刊《Patterns》发表论文指出,尽管大型语言模型(LLM)可以增强机器学习系统的功能、降低成本并减少人力投入,但同时也会削弱开发者和使用者对系统的透明度与控制力,并提高遭受恶意网络攻击、数据泄露以及加剧对弱势群体偏见的可能性。

Lones 来自英国爱丁堡赫瑞瓦特大学。他强调,机器学习开发者需要清楚认识在机器学习中引入生成式人工智能的风险,并在能力提升与潜在风险之间做出权衡。他表示:“鉴于生成式人工智能目前的局限性,我认为这很好地说明了‘能做并不代表应该做’。”

生成式人工智能在机器学习中的应用方式

机器学习系统通过算法从数据中学习模式,从而对新数据进行预测和决策。这项技术已经发展数十年,人们在日常生活中通过垃圾邮件过滤、电商推荐、社交媒体信息流等场景频繁接触到它。过去两年左右,业界开始推动将生成式人工智能(尤其是大型语言模型)整合进机器学习系统。但 Lones 指出,这一趋势伴随着多方面的风险和限制,开发者和公众都应了解这些问题。

Lones 将当前生成式人工智能在机器学习中的应用大致分为四类:

  1. 作为机器学习流程中的一个组件;
  2. 用于设计和编写机器学习流程的代码;
  3. 用来合成或生成训练数据;
  4. 用于分析和解释机器学习系统的输出。

他认为,这几种用法都存在风险。如果大型语言模型在同一机器学习系统中承担多种角色,或者具备一定“代理性”(即可以自主调用外部工具来解决问题),这些风险还会被进一步放大。

复杂系统与高风险应用场景

Lones 提醒,如果在一个机器学习工作流程或系统中,以多种方式同时使用生成式人工智能,不同组件之间可能会产生难以预料、也难以理解的交互效应。他建议,目前应尽量避免在机器学习中引入过度复杂的生成式人工智能结构,尤其是在对人们生活和生计有重大影响的高风险领域。

在他看来,最突出的风险之一是大型语言模型本身会犯错:可能做出错误判断,甚至生成虚构或“幻觉”的信息。这类错误往往难以预测,而由于大型语言模型内部机制高度不透明,想要系统性评估这些错误也非常困难,这还会带来合规和法律层面的额外挑战。

他指出,在医疗、金融等领域,法规通常要求能够证明机器学习系统的可靠性,并对其决策过程给出合理解释。一旦在这些系统中引入大型语言模型,由于其高度不透明,要满足这类要求就变得格外困难。

安全、隐私与公众认知

在安全与隐私方面,Lones 建议机器学习开发者务必对大型语言模型生成的代码和输出进行人工审查,而不是完全依赖自动化结果。他还提醒,规模更大、部署在远程服务器上的大型语言模型往往会存储和共享用户数据,这意味着在使用这些模型时,网络安全漏洞和敏感信息泄露的风险都会上升。

Lones 认为,公众有必要了解生成式人工智能系统的局限性。企业可能会为了降低成本而大规模部署此类系统,这在某些情况下确实能改善用户体验,但也可能带来负面影响,例如放大偏见和不公平现象。


分享:


发表评论

登录后才可评论。 去登录