人工智能开始代答问卷，但“合成意见”并不等同公众舆论

科学 2026-05-31 人工智能, 调查研究, 大型语言模型, 公众舆论, 社会科学 13 次浏览

调查和民意测验长期以来是了解公众在政治、健康、教育等议题上真实想法的重要工具。然而，近年来愿意参与调查的人越来越少，研究人员不得不联系更多潜在受访者才能获得足够样本，导致成本急剧上升。一家调查公司对一项仅10分钟、样本量为1000人的调查报价就可能高达数万美元。

在这种背景下，一个新思路出现了：能否用人工智能模型来“扮演”成百上千名受访者，生成他们可能给出的各种回答？这种做法被称为“合成调查”或“硅采样”，已经在实践中出现，而且成本远低于传统调查。但关键问题是：这些结果是否可信？

我是从事机器学习研究的学者，主要研究大型语言模型及其在医学和科学领域的应用。这类系统会随着公司更新而不断变化，不同的提示方式、参数设置和模型版本，往往会对同一个问题给出截然不同的回答。这种不稳定性使它们难以作为社会科学研究中的可靠测量工具，却恰好适合用来模拟大量“虚拟人”的回答——研究人员称之为“合成受访者”。

例如，如果调查人员希望从 ChatGPT 获得1万份问卷回答，可以先为模型设定受访者的基本人口学特征和背景，再让它代入角色作答。提示可能类似于：“你是一名持保守政治立场的年轻城市大学生选民，请回答以下问题。”通过改变这些人口学设定，研究人员就能针对同一问卷生成不同类型“受访者”的多样回答。

此外，模型本身具有内在随机性，即使在相同设定下重复提问，也会自然产生不同答案。研究人员可以利用提示设定与随机性的结合，批量生成1万份彼此不同的合成回答。

模拟不等于真实意见

传统调查中，研究人员会使用统计模型，从有限样本推断整体趋势。不同分析者甚至可能基于同一份数据得出不同解读。已有研究表明，合成受访者对提示语或参数设置的细微变化往往比真实人类更敏感，结果可能出现更大的波动。

更深层的问题在于：调查不仅是预测工具，更是测量工具，目标是尽可能贴近人们的真实想法。就像体温计是直接测量你的体温，你很难信任一支通过“询问AI”来估算你体温的体温计。

大型语言模型和其他AI工具不可避免地继承了训练数据中的偏见和盲点。例如，网络上本就代表性不足的群体，其观点在模型中可能被进一步简化、忽略或扭曲。传统民调当然也存在偏差，但现代AI系统的许多偏见隐藏在封闭的专有模型内部，外界难以审查和纠正。更令人担忧的是，调查机构可能会将合成受访者的结果包装成“真实人群”的调查结论对外发布。

这些问题可能削弱公众对民调和调查研究的信任，同时也暴露出一个耐人寻味的悖论：合成数据在现代AI中极为常见，广泛用于训练医学、金融、机器人、自驾车等领域的系统，为何一旦用在调查问卷上就显得格外敏感？

关键差异在于，其他领域的合成数据通常会与现实世界进行严格对照和验证。比如，自动驾驶系统可以在大量合成路况图像和视频上训练，但汽车厂商绝不会在缺乏充分现实道路测试的情况下就让车辆上路。如果发现合成数据导致性能问题，工程师可以调整数据、重新训练或替换系统。

而在合成调查中，研究人员可能直接把AI生成的回答当作“公众舆论”的替代品使用。问题在于，这样的系统并没有真正测量公众意见，只是在基于既有训练数据运行一套“舆论模拟”。如果这种模拟与现实存在系统性偏差，研究人员往往要等到错误结论已经影响公共政策、商业决策或科学研究之后，才可能意识到问题所在。

AI可以辅助，而不是取代受访者

尽管如此，人工智能仍然可以在不替代真实受访者的前提下，为调查研究提供重要帮助。

在问卷设计阶段，AI工具可以协助研究人员优化题目表述，使问题更清晰、语言更简洁，减少歧义和重复，删去不必要的题项，从而降低受访者的理解负担，提高完成率。AI还可以帮助将问卷更好地适配到不同语言和文化环境中。

在数据分析阶段，AI能够高效处理大量开放式回答，自动归纳常见主题和观点，比完全依赖人工编码更省时省力，也更容易处理不完整或质量参差不齐的问卷。一些研究团队正在尝试“小规模真实样本 + AI辅助分析”的混合模式：先通过有限的人工调查获取真实数据，再利用AI扩展分析深度和广度。

对决策者而言，调查和民调的价值在于倾听并理解那些会受到决策影响的真实人群的声音。如果用合成受访者大规模替代真实受访者，这种直接联系可能被削弱甚至中断。与此同时，响应率下降和成本上升又是调查行业无法回避的现实难题。

我认为，未来的关键在于开展更多系统研究，探索如何以透明、可审查、科学上站得住脚的方式使用AI，让它成为调查研究的辅助工具，而不是人类受访者的替身。

本文根据《对话》（The Conversation）网站内容，经创意共享许可改写与转载。

发表评论

登录后才可评论。去登录