AI伦理

研究指出:AI与人类价值观的完全对齐在数学上无法实现

研究指出:AI与人类价值观的完全对齐在数学上无法实现

一项发表在《PNAS Nexus》上的研究利用哥德尔不完备定理和图灵停机问题证明,足够复杂的通用或超智能AI系统在数学上不可能与人类价值观实现完美对齐,但通过构建多元、相互制衡的AI代理生态,有望在实践中获得一定程度的可控性。

研究:大型语言模型呈现人类式“我们与他们”群体偏见

研究:大型语言模型呈现人类式“我们与他们”群体偏见

新研究发现,多种主流大型语言模型会从训练文本中“继承”人类社会中的“我们与他们”偏见,并在默认与角色设定等不同条件下表现出对内群体更积极、对外群体更消极的语言模式。研究团队还提出了名为 ION 的缓解方法,可显著降低相关情感差异。