大型语言模型

richlovec 1500_400 (1)
 

研究称ChatGPT在持续争执语境下可能出现辱骂与威胁性回应

研究称ChatGPT在持续争执语境下可能出现辱骂与威胁性回应

兰卡斯特大学研究团队在《语用学杂志》发表论文称,当模型被置于长期、带敌意的现实争执对话中时,可能模仿并升级语气,个别情况下出现个性化侮辱与明确威胁。多位未参与研究的学者认为该研究具有启发性,但也提醒不宜据此推断模型会在一般情境中“失控”。

richlovec 1500_400 (1)
 

研究指出:AI与人类价值观的完全对齐在数学上无法实现

研究指出:AI与人类价值观的完全对齐在数学上无法实现

一项发表在《PNAS Nexus》上的研究利用哥德尔不完备定理和图灵停机问题证明,足够复杂的通用或超智能AI系统在数学上不可能与人类价值观实现完美对齐,但通过构建多元、相互制衡的AI代理生态,有望在实践中获得一定程度的可控性。