从大型语言模型到“幻觉”：常见人工智能术语简明指南

商业 2026-05-13 科技最前沿人工智能, 大型语言模型, 机器学习, 生成式AI, 技术术语 6 次浏览

人工智能技术近年迅速演进，相关研究人员在交流中大量使用专业术语和行话。媒体在报道这一领域时也频繁引用这些概念。为便于读者理解，本文整理了一份常见人工智能术语表，对报道中经常出现的关键词汇和短语进行简要说明。

这份词汇表将不定期更新。随着研究人员提出新的技术路径、推动人工智能前沿发展，并识别新的安全风险，新的术语也会被补充进来。

AGI

人工通用智能（Artificial General Intelligence，AGI）目前尚无统一定义，通常指在许多甚至大多数任务上能力超过普通人的人工智能系统。

不同机构对AGI的表述存在差异。OpenAI首席执行官Sam Altman曾将AGI形容为“你可以雇佣为同事的中等水平人类的等价物”。OpenAI的章程则将AGI界定为“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。Google DeepMind的说法略有不同，该实验室认为AGI是“在大多数认知任务上至少与人类同等能力的人工智能”。

AI agent

AI代理通常指能够代表用户执行一系列任务的人工智能工具，其能力超出基础聊天机器人的简单问答。例如，报销费用、预订机票或餐厅、编写和维护代码等，都被视为AI代理的潜在应用场景。

目前业内对“AI代理”的具体内涵尚无完全一致的理解，不同机构和产品的定义存在差别。相关基础设施仍在建设中，许多设想中的能力尚处于早期阶段。总体而言，AI代理通常被描述为一种具备一定自主性、可调用多个AI系统完成多步骤任务的系统。

Chain of thought

在人类解决问题时，有些问题可以直接给出答案，有些则需要写出中间步骤才能得出正确结果。例如，农场主拥有鸡和牛，共有40个头和120条腿，需要通过列方程才能求出数量（20只鸡和20头牛）。

在人工智能领域，“链式思维”（chain-of-thought）推理指大型语言模型在回答问题时，将问题拆解为一系列中间步骤，以提升最终答案的质量。这种方式通常会延长生成答案的时间，但在逻辑推理或编程等场景中，更有利于提高正确率。所谓“推理模型”是在传统大型语言模型基础上，通过强化学习等方式优化而来，以更好地支持链式思维推理。

（参见：大型语言模型）

Compute

“计算”（compute）在AI语境中通常指支撑模型训练和运行的计算能力，是人工智能产业的关键资源之一。该词也常被用作相关硬件的统称，包括GPU、CPU、TPU以及其他构成现代AI基础设施的芯片和设备。

Deep learning

深度学习是机器学习的一个重要分支，其算法通常以多层人工神经网络（ANN）的形式构建，相比线性模型、决策树等传统机器学习方法，能够捕捉更复杂的模式和关联。深度学习网络的结构灵感来自人脑中神经元之间的连接方式。

深度学习模型可以在无需人工预先定义特征的情况下，从数据中自动提取关键特征，并通过不断纠正错误、反复迭代来改进输出表现。但这类系统往往需要大量数据（通常以百万级样本计）才能取得良好效果，训练时间较长、成本较高。

（参见：神经网络）

Diffusion

扩散（diffusion）是当前多种图像、音乐和文本生成模型采用的核心技术之一。该方法受物理学中扩散过程启发：系统先通过逐步加入噪声，破坏原始数据（如照片、音频等）的结构，直至信息几乎完全被噪声覆盖。

与物理世界中不可逆的扩散不同，AI中的扩散模型会学习一个“逆扩散”过程，从噪声中逐步恢复出结构化数据，从而生成新的图像、音频或文本内容。

Distillation

蒸馏（distillation）是一种“师生模型”技术，用于从大型AI模型中提取知识。开发者向规模较大的“教师模型”发送请求并记录其输出，有时还会将这些输出与标注数据对比，以评估准确性。随后，利用这些输出训练较小的“学生模型”，使其行为尽量接近教师模型。

蒸馏可在尽量减少性能损失的前提下，将大型模型压缩为更小、更高效的版本。外界普遍认为，OpenAI推出的GPT-4 Turbo（GPT-4的更快版本）很可能采用了类似方法。

蒸馏在各家AI公司内部广泛使用。一些机构也可能尝试对竞争对手的模型进行蒸馏，这通常会违反相关API或聊天助手的服务条款。

Fine-tuning

微调（fine-tuning）是指在已有AI模型基础上，利用新的、针对特定任务或领域的数据进行进一步训练，以提升模型在该细分场景下的表现。

不少AI初创公司会以通用大型语言模型为基础，结合自身行业知识和专业数据进行微调，从而打造面向特定行业或业务场景的产品。

（参见：大型语言模型）

GAN

生成对抗网络（Generative Adversarial Network，GAN）是一种机器学习框架，在生成逼真数据方面发挥了重要作用，包括深度伪造（deepfake）等应用。

GAN由一对神经网络组成：生成器负责根据训练数据生成样本，判别器则对这些样本进行真假判断。判别器相当于生成器输出的分类器，生成器则不断调整输出以“骗过”判别器。

这种对抗式结构使两个模型在竞争中共同提升：生成器力图让其输出被判定为真实数据，判别器则努力识别出人工生成的内容。通过这种方式，系统可以在较少人工干预的情况下，逐步生成更逼真的图像或视频。GAN在生成高保真图像等特定任务上表现突出，但并不适合作为通用人工智能的基础架构。

Hallucination

“幻觉”（hallucination）是AI行业用来描述模型“编造”内容的术语，即生成与事实不符的信息。这被视为影响生成式AI质量的主要问题之一。

幻觉可能导致输出具有误导性，甚至在某些场景下带来现实风险，例如在健康咨询中给出有害的医疗建议。因此，多数生成式AI工具在使用条款中都会提醒用户核实生成内容，但这些提示往往不如一键生成的答案醒目。

业内普遍认为，幻觉与训练数据的缺口有关。对于通用生成式模型（也称基础模型）而言，现有数据难以覆盖用户可能提出的所有问题，知识空白难以完全消除。

幻觉问题推动了更专业化、垂直化模型的发展，即针对特定领域构建的AI系统，以缩小知识范围、降低错误和虚假信息风险。

Inference

推理（inference）指运行AI模型、让其基于已学习的模式进行预测或生成输出的过程。推理建立在训练之上，模型只有在完成训练、掌握数据中的统计规律后，才能在推理阶段给出有效结果。

从智能手机处理器到高性能GPU，再到专用AI加速芯片，各类硬件都可以执行推理，但效率差异较大。体量很大的模型在普通笔记本电脑上运行可能需要较长时间，而在配备高端AI芯片的云服务器上则要快得多。

（参见：训练）

Large language model（LLM）

大型语言模型（Large Language Model，LLM）是当前主流AI助手背后的核心模型类型，包括ChatGPT、Claude、谷歌Gemini、Meta的Llama、微软Copilot以及Mistral的Le Chat等产品所使用的模型。

用户与AI助手交互时，实际上是在与大型语言模型对话。模型可以直接处理用户请求，也可以在浏览网页、调用代码解释器等工具的辅助下完成任务。

AI助手产品名称与其底层大型语言模型名称并不总是一致。例如，GPT是OpenAI的大型语言模型，而ChatGPT是基于该模型构建的助手产品。

LLM本质上是由数十亿个参数（权重）构成的深度神经网络，用于学习词语和短语之间的关系，形成一种多维度的语言表示。

这类模型通过在大规模语料（包括书籍、文章、转录文本等）中学习模式而构建。当用户输入提示时，模型会根据已学到的统计规律，预测最有可能接续的词语，并不断重复这一过程，生成完整回答。

（参见：神经网络）

Memory cache

内存缓存（memory cache）是一种用于提升推理效率的关键机制。由于AI推理涉及大量数学运算，每次计算都消耗算力和能量，缓存通过保存部分中间计算结果，减少重复运算，从而提高响应速度、降低资源消耗。

缓存形式多样，其中较常被提及的是KV（键值）缓存。KV缓存适用于基于Transformer架构的模型，可减少生成答案时需要重复执行的计算步骤，缩短响应时间。

（参见：推理）

Neural network

神经网络是支撑深度学习的多层算法结构，也是大型语言模型等生成式AI工具的基础。

早在20世纪40年代，研究人员就提出了受人脑神经通路启发的数据处理算法构想。但真正推动神经网络大规模应用的是图形处理单元（GPU）的普及。受电子游戏产业带动，GPU算力不断提升，使得研究人员可以训练层数远多于早期模型的网络结构。

基于神经网络的AI系统在语音识别、自动驾驶导航、药物发现等多个领域取得了显著进展，并为后续的大型语言模型奠定了技术基础。

（参见：大型语言模型）

RAMageddon

“RAMageddon”是一个新造词，用于形容随机存取存储器（RAM）芯片日益紧张的供应状况。RAM是几乎所有电子设备的关键组件。随着人工智能产业扩张，大型科技公司和AI实验室为建设数据中心大量采购高性能内存，推高了市场需求。

这一趋势对多个行业产生影响：游戏厂商因设备内存芯片供应紧张而上调游戏机价格；消费电子领域则面临智能手机出货量十多年来最大跌幅的风险；企业数据中心也在争夺有限的内存资源。价格上涨被认为将持续到供应紧张缓解为止，目前尚无明显缓和迹象。

Training

训练（training）是开发机器学习模型的核心环节，即向模型输入数据，让其学习其中的模式并据此生成有用输出。

在预训练阶段，模型仅由若干层结构和随机初始化的数值构成。通过训练，模型逐步调整这些参数，使其在给定输入下输出更接近目标结果，无论任务是识别猫的图像，还是生成一首俳句。

并非所有AI系统都依赖训练。基于规则的系统按照预先设定的指令执行任务，例如早期的线性聊天机器人，不需要通过数据驱动的学习过程。但与经过充分训练的自学习系统相比，这类规则系统功能通常更受限制。

训练过程成本较高，需要大量数据，且对数据规模的需求仍在上升。为降低成本、缩短开发周期，有时会采用混合方式，例如在基于规则的系统上叠加数据驱动的微调，相比从零开始训练完整模型，所需数据、算力和算法复杂度都更低。

（参见：推理）

Tokens

在人类与AI系统交互时，双方使用的“语言”并不相同。人类使用自然语言，而AI模型通过内部的数值计算和算法处理信息。令牌（token）是连接两者的基本单位，即大型语言模型处理或生成的离散数据片段。

令牌通过“分词”过程产生：系统将原始文本拆分为模型可以理解和处理的最小单元。类似于编译器将高级编程语言转换为机器可读的二进制代码，分词过程将用户输入的自然语言转化为模型可操作的形式。

常见令牌类型包括：

输入令牌：用户输入被模型接收和处理的部分；
输出令牌：模型在生成回答时输出的部分；
推理令牌：涉及更长、更复杂任务和过程时，模型在内部处理的令牌总量。

在企业级AI应用中，令牌数量通常与使用成本直接挂钩。由于令牌代表模型处理的数据量，多数AI服务提供商按令牌计费。企业在使用ChatGPT等服务时，消耗的令牌越多，需支付的费用也越高。

Transfer learning

迁移学习（transfer learning）是一种利用已有模型作为起点，开发新模型的技术。新任务通常与原任务相关，模型可以在此基础上复用部分已学知识。

迁移学习有助于缩短模型开发时间，尤其在目标任务可用数据有限时更为实用。但这种方法也存在局限：依赖迁移学习获得的通用能力，往往仍需额外数据训练，才能在特定领域达到理想表现。

（参见：微调）

Weights

权重（weights）是AI训练过程中的核心参数，用于衡量训练数据中不同特征的重要性，并直接影响模型输出。

在数学上，权重是与输入特征相乘的数值参数。模型训练通常从随机权重开始，随着训练迭代，权重不断调整，使模型输出逐步接近目标结果。

以房价预测模型为例，如果模型基于某地区历史房地产数据进行训练，输入特征可能包括卧室和浴室数量、房屋类型（独栋或半独栋）、是否配备停车位或车库等。最终，模型为每个特征学习到的权重，反映了在给定数据集下，这些因素对房价的相对影响。

本文将根据技术和行业发展情况持续更新，补充新的术语和相关信息。

发表评论

登录后才可评论。去登录