大型语言模型与创造力：AI 答案整体更趋同质化

科学 2026-03-29 大型语言模型, 人工智能, 创造力, 认知科学, 科技研究 31 次浏览

大型语言模型会让创意变得更“雷同”吗？

使用大型语言模型（LLM）到底能不能真正提升人的创造力？已有研究提示，引入 LLM 往往会让创意产出变得更加同质化。不过，这种同质化究竟是由某个特定模型造成的，还是因为大家都在使用类似的模型所致，一直没有定论。

近期发表在《PNAS Nexus》上的一项研究，对这一问题进行了系统检验。研究由 Emily Wenger 和 Yoed N. Kenett 主导，他们招募了来自 Prolific 平台的人类参与者，并同时调用多种主流大型语言模型，让二者完成一系列用于评估不同维度创造力的任务。

研究设计：人类 vs 多种 LLM

在实验中，人类参与者和多个 LLM 被要求完成多种类型的创造力任务，例如：

非常规用途任务：
- 要求参与者尽可能多地想出某个日常物品（如叉子、裤子）的各种用途。
多样名词任务：
- 要求参与者给出 10 个名词，这些名词之间要尽可能彼此不同。

通过这些任务，研究者可以同时考察“想法数量”和“想法之间的差异程度”，从而衡量创造力的丰富性与多样性。

结果：单个模型看似有创意，整体却更趋一致

研究发现，在整体层面上，LLM 的回答彼此之间要比人类参与者的回答相似得多，人类给出的答案在内容和风格上都展现出更高的多样性。

如果只看单个模型的表现，情况则有所不同：

对于某一具体任务，单个 LLM 的回答在创造力评分上，往往能达到甚至超过人类平均水平。
也就是说，单独比较时，LLM 的输出并不显得“缺乏创意”。

但当研究者把不同 LLM（例如 Gemini、GPT、Llama 等）的输出放在一起比较时，问题就显现出来了：

不同模型之间反复出现高度相似的想法和表述，
整体上形成了一个“创意高度重叠”的答案空间。

温度调节：多样性与可用性之间的拉扯

研究还考察了模型“温度”参数的影响。温度用于控制模型输出的随机性：

提高温度：回答会比低温度时更具变化，内容更加多样；
但温度过高：输出很快会变得支离破碎、缺乏连贯性，甚至出现明显不符合任务要求的无意义内容。

这意味着，单纯依靠调高温度来追求多样性，会以牺牲答案质量和任务可用性为代价，难以真正解决“同质化”问题。

结论：同质化源于 LLM 的广泛使用，而非某个单一模型

作者据此推断，输出同质化更可能是普遍依赖 LLM 本身带来的系统性结果，而不是某一个特定模型的独有问题。

从更深层的角度看，LLM 在本质上缺乏：

身体与真实世界的感知经验，
个人经历与生活背景，
内在意图与动机，
稳定的个性特征，
对世界的真正理解能力。

而这些因素，很可能是支撑人类创造力、尤其是多样化思维的关键基础。作者指出，目前尚不清楚，未来是否能够通过改进 LLM 的架构或训练方式，让其在创造力上真正达到或超越人类水平。

对人类思维的潜在影响

研究最后提醒，如果在头脑风暴、问题求解或艺术创作等环节过度依赖 LLM：

人类可能会在不知不觉中接受那些看似合理却高度同质化的答案，
长期下来，可能削弱个人和群体在思考路径、表达方式和创意风格上的多样性。

换言之，LLM 在提供便利和效率的同时，也可能在悄然重塑我们的思维模式，这一影响值得持续关注和审慎评估。

发表评论

登录后才可评论。去登录