研究以尼安德特人题材测试生成式AI:输出内容与当代学术知识存在偏差

richlovec 1500_400 (1)
 

过去数十年的技术进步让移动设备与计算机成为人们获取信息的重要入口。随着生成式人工智能能力提升,用户可以更快速地获得关于历史、健康等问题的回答与图像内容,但其准确性与信息来源仍受到关注。

缅因大学人类学助理教授马修·马格纳尼(Matthew Magnani)与芝加哥大学计算人类学教授乔恩·克林达尼尔(Jon Clindaniel)合作,构建了一个基于数百年科学理论与学术研究的研究框架,测试生成式人工智能在呈现“过去”时与学术知识之间的差距。相关成果已发表在期刊《考古实践进展》上。

研究团队让两个聊天机器人生成描绘尼安德特人日常生活的图像与叙述,并评估其与学术文献的一致性。研究人员表示,生成内容的准确程度取决于人工智能能否获取可靠的源信息;在本次测试中,生成的图像与叙述多次呈现出对过时研究的依赖。

研究如何进行

马格纳尼与克林达尼尔针对四个不同提示语各进行100次测试,使用DALL-E 3生成图像,并使用ChatGPT API(GPT-3.5)生成叙述。其中两条提示语未要求“科学准确性”,另外两条则明确提出准确性要求;同时,有两条提示语提供了更具体的背景信息,例如尼安德特人应从事的活动或穿着。

研究团队称,此举旨在观察关于过去的偏见与错误信息如何在生成式人工智能的日常使用中出现。马格纳尼表示,理解人们快速获得的答案与“最先进、当代科学知识”之间的关系十分关键,并提出需要关注用户在向聊天机器人寻求信息时是否更容易得到过时答案,以及这种情况在哪些领域更为突出。

研究人员指出,该项目于2023年启动。马格纳尼同时表示,若在当前阶段重复实验,他希望聊天机器人能够更好地融合最新科学研究。

主要发现:过时刻板印象与时代错置

研究指出,尼安德特人骨骼遗骸在1864年首次被描绘,此后学界对其外观与生活方式的认识不断变化并存在争论。研究团队认为,围绕尼安德特人的具体细节长期存在不确定性,使其成为检验生成式人工智能准确性与信息来源能力的合适题材。

在本次研究中,部分生成图像呈现出100多年前对尼安德特人的刻板认知:更接近“原始的人类相关物种”,带有大量体毛、上半身前倾等特征,并且画面中缺少女性与儿童形象。研究人员还称,生成叙述在一定程度上淡化了当代科学文献对尼安德特人文化多样性与复杂性的理解。

研究结果显示,约一半由ChatGPT生成的叙述与学术知识不符,其中一条提示语对应的不符比例超过80%。此外,图像与叙述中还出现了对技术的描述超出时代水平的情况,包括编织篮子、带茅草屋顶与梯子的建筑,以及玻璃与金属等元素。

信息来源差异与可获取性问题

研究团队通过将生成的图像与叙述与不同时期的科学文献进行交叉比对,尝试识别聊天机器人汇集信息的来源。研究人员称,ChatGPT生成内容与1960年代研究更为接近,而DALL-E 3生成图像则更接近1980年代末至1990年代初的研究。

克林达尼尔表示,提高人工智能输出准确性的一个重要途径,是确保人类学数据集与学术文章能够被人工智能访问。他同时指出,1920年代制定的版权法限制了学术研究的获取,直到2000年代初开放获取(open access)兴起后情况才有所变化;未来围绕学术研究可访问性的政策,将影响人工智能生成内容,并进一步影响公众对过去的想象方式。

马格纳尼表示,教导学生谨慎使用生成式人工智能,有助于培养更具技术素养与批判意识的社会。研究人员还称,该研究属于他们关于人工智能在考古研究及相关主题中应用的一系列探索之一。


分享:


发表评论

登录后才可评论。 去登录