人工智能技术近年迅速演进,相关研究人员在交流中大量使用专业术语和行话。媒体在报道这一领域时也频繁引用这些概念。为便于读者理解,本文整理了一份常见人工智能术语表,对报道中经常出现的关键词汇和短语进行简要说明。
这份词汇表将不定期更新。随着研究人员提出新的技术路径、推动人工智能前沿发展,并识别新的安全风险,新的术语也会被补充进来。
AGI
人工通用智能(Artificial General Intelligence,AGI)目前尚无统一定义,通常指在许多甚至大多数任务上能力超过普通人的人工智能系统。
不同机构对AGI的表述存在差异。OpenAI首席执行官Sam Altman曾将AGI形容为“你可以雇佣为同事的中等水平人类的等价物”。OpenAI的章程则将AGI界定为“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。Google DeepMind的说法略有不同,该实验室认为AGI是“在大多数认知任务上至少与人类同等能力的人工智能”。
AI agent
AI代理通常指能够代表用户执行一系列任务的人工智能工具,其能力超出基础聊天机器人的简单问答。例如,报销费用、预订机票或餐厅、编写和维护代码等,都被视为AI代理的潜在应用场景。
目前业内对“AI代理”的具体内涵尚无完全一致的理解,不同机构和产品的定义存在差别。相关基础设施仍在建设中,许多设想中的能力尚处于早期阶段。总体而言,AI代理通常被描述为一种具备一定自主性、可调用多个AI系统完成多步骤任务的系统。
Chain of thought
在人类解决问题时,有些问题可以直接给出答案,有些则需要写出中间步骤才能得出正确结果。例如,农场主拥有鸡和牛,共有40个头和120条腿,需要通过列方程才能求出数量(20只鸡和20头牛)。
在人工智能领域,“链式思维”(chain-of-thought)推理指大型语言模型在回答问题时,将问题拆解为一系列中间步骤,以提升最终答案的质量。这种方式通常会延长生成答案的时间,但在逻辑推理或编程等场景中,更有利于提高正确率。所谓“推理模型”是在传统大型语言模型基础上,通过强化学习等方式优化而来,以更好地支持链式思维推理。
(参见:大型语言模型)
Compute
“计算”(compute)在AI语境中通常指支撑模型训练和运行的计算能力,是人工智能产业的关键资源之一。该词也常被用作相关硬件的统称,包括GPU、CPU、TPU以及其他构成现代AI基础设施的芯片和设备。
Deep learning
深度学习是机器学习的一个重要分支,其算法通常以多层人工神经网络(ANN)的形式构建,相比线性模型、决策树等传统机器学习方法,能够捕捉更复杂的模式和关联。深度学习网络的结构灵感来自人脑中神经元之间的连接方式。
深度学习模型可以在无需人工预先定义特征的情况下,从数据中自动提取关键特征,并通过不断纠正错误、反复迭代来改进输出表现。但这类系统往往需要大量数据(通常以百万级样本计)才能取得良好效果,训练时间较长、成本较高。
(参见:神经网络)
Diffusion
扩散(diffusion)是当前多种图像、音乐和文本生成模型采用的核心技术之一。该方法受物理学中扩散过程启发:系统先通过逐步加入噪声,破坏原始数据(如照片、音频等)的结构,直至信息几乎完全被噪声覆盖。
与物理世界中不可逆的扩散不同,AI中的扩散模型会学习一个“逆扩散”过程,从噪声中逐步恢复出结构化数据,从而生成新的图像、音频或文本内容。
Distillation
蒸馏(distillation)是一种“师生模型”技术,用于从大型AI模型中提取知识。开发者向规模较大的“教师模型”发送请求并记录其输出,有时还会将这些输出与标注数据对比,以评估准确性。随后,利用这些输出训练较小的“学生模型”,使其行为尽量接近教师模型。
蒸馏可在尽量减少性能损失的前提下,将大型模型压缩为更小、更高效的版本。外界普遍认为,OpenAI推出的GPT-4 Turbo(GPT-4的更快版本)很可能采用了类似方法。
蒸馏在各家AI公司内部广泛使用。一些机构也可能尝试对竞争对手的模型进行蒸馏,这通常会违反相关API或聊天助手的服务条款。
Fine-tuning
微调(fine-tuning)是指在已有AI模型基础上,利用新的、针对特定任务或领域的数据进行进一步训练,以提升模型在该细分场景下的表现。
不少AI初创公司会以通用大型语言模型为基础,结合自身行业知识和专业数据进行微调,从而打造面向特定行业或业务场景的产品。
(参见:大型语言模型)
GAN
生成对抗网络(Generative Adversarial Network,GAN)是一种机器学习框架,在生成逼真数据方面发挥了重要作用,包括深度伪造(deepfake)等应用。
GAN由一对神经网络组成:生成器负责根据训练数据生成样本,判别器则对这些样本进行真假判断。判别器相当于生成器输出的分类器,生成器则不断调整输出以“骗过”判别器。
这种对抗式结构使两个模型在竞争中共同提升:生成器力图让其输出被判定为真实数据,判别器则努力识别出人工生成的内容。通过这种方式,系统可以在较少人工干预的情况下,逐步生成更逼真的图像或视频。GAN在生成高保真图像等特定任务上表现突出,但并不适合作为通用人工智能的基础架构。
Hallucination
“幻觉”(hallucination)是AI行业用来描述模型“编造”内容的术语,即生成与事实不符的信息。这被视为影响生成式AI质量的主要问题之一。
幻觉可能导致输出具有误导性,甚至在某些场景下带来现实风险,例如在健康咨询中给出有害的医疗建议。因此,多数生成式AI工具在使用条款中都会提醒用户核实生成内容,但这些提示往往不如一键生成的答案醒目。
业内普遍认为,幻觉与训练数据的缺口有关。对于通用生成式模型(也称基础模型)而言,现有数据难以覆盖用户可能提出的所有问题,知识空白难以完全消除。
幻觉问题推动了更专业化、垂直化模型的发展,即针对特定领域构建的AI系统,以缩小知识范围、降低错误和虚假信息风险。
Inference
推理(inference)指运行AI模型、让其基于已学习的模式进行预测或生成输出的过程。推理建立在训练之上,模型只有在完成训练、掌握数据中的统计规律后,才能在推理阶段给出有效结果。
从智能手机处理器到高性能GPU,再到专用AI加速芯片,各类硬件都可以执行推理,但效率差异较大。体量很大的模型在普通笔记本电脑上运行可能需要较长时间,而在配备高端AI芯片的云服务器上则要快得多。
(参见:训练)

Large language model(LLM)
大型语言模型(Large Language Model,LLM)是当前主流AI助手背后的核心模型类型,包括ChatGPT、Claude、谷歌Gemini、Meta的Llama、微软Copilot以及Mistral的Le Chat等产品所使用的模型。
用户与AI助手交互时,实际上是在与大型语言模型对话。模型可以直接处理用户请求,也可以在浏览网页、调用代码解释器等工具的辅助下完成任务。
AI助手产品名称与其底层大型语言模型名称并不总是一致。例如,GPT是OpenAI的大型语言模型,而ChatGPT是基于该模型构建的助手产品。
LLM本质上是由数十亿个参数(权重)构成的深度神经网络,用于学习词语和短语之间的关系,形成一种多维度的语言表示。
这类模型通过在大规模语料(包括书籍、文章、转录文本等)中学习模式而构建。当用户输入提示时,模型会根据已学到的统计规律,预测最有可能接续的词语,并不断重复这一过程,生成完整回答。
(参见:神经网络)
Memory cache
内存缓存(memory cache)是一种用于提升推理效率的关键机制。由于AI推理涉及大量数学运算,每次计算都消耗算力和能量,缓存通过保存部分中间计算结果,减少重复运算,从而提高响应速度、降低资源消耗。
缓存形式多样,其中较常被提及的是KV(键值)缓存。KV缓存适用于基于Transformer架构的模型,可减少生成答案时需要重复执行的计算步骤,缩短响应时间。
(参见:推理)
Neural network
神经网络是支撑深度学习的多层算法结构,也是大型语言模型等生成式AI工具的基础。
早在20世纪40年代,研究人员就提出了受人脑神经通路启发的数据处理算法构想。但真正推动神经网络大规模应用的是图形处理单元(GPU)的普及。受电子游戏产业带动,GPU算力不断提升,使得研究人员可以训练层数远多于早期模型的网络结构。
基于神经网络的AI系统在语音识别、自动驾驶导航、药物发现等多个领域取得了显著进展,并为后续的大型语言模型奠定了技术基础。
(参见:大型语言模型)
RAMageddon
“RAMageddon”是一个新造词,用于形容随机存取存储器(RAM)芯片日益紧张的供应状况。RAM是几乎所有电子设备的关键组件。随着人工智能产业扩张,大型科技公司和AI实验室为建设数据中心大量采购高性能内存,推高了市场需求。
这一趋势对多个行业产生影响:游戏厂商因设备内存芯片供应紧张而上调游戏机价格;消费电子领域则面临智能手机出货量十多年来最大跌幅的风险;企业数据中心也在争夺有限的内存资源。价格上涨被认为将持续到供应紧张缓解为止,目前尚无明显缓和迹象。
Training
训练(training)是开发机器学习模型的核心环节,即向模型输入数据,让其学习其中的模式并据此生成有用输出。
在预训练阶段,模型仅由若干层结构和随机初始化的数值构成。通过训练,模型逐步调整这些参数,使其在给定输入下输出更接近目标结果,无论任务是识别猫的图像,还是生成一首俳句。
并非所有AI系统都依赖训练。基于规则的系统按照预先设定的指令执行任务,例如早期的线性聊天机器人,不需要通过数据驱动的学习过程。但与经过充分训练的自学习系统相比,这类规则系统功能通常更受限制。
训练过程成本较高,需要大量数据,且对数据规模的需求仍在上升。为降低成本、缩短开发周期,有时会采用混合方式,例如在基于规则的系统上叠加数据驱动的微调,相比从零开始训练完整模型,所需数据、算力和算法复杂度都更低。
(参见:推理)
Tokens
在人类与AI系统交互时,双方使用的“语言”并不相同。人类使用自然语言,而AI模型通过内部的数值计算和算法处理信息。令牌(token)是连接两者的基本单位,即大型语言模型处理或生成的离散数据片段。
令牌通过“分词”过程产生:系统将原始文本拆分为模型可以理解和处理的最小单元。类似于编译器将高级编程语言转换为机器可读的二进制代码,分词过程将用户输入的自然语言转化为模型可操作的形式。
常见令牌类型包括:
- 输入令牌:用户输入被模型接收和处理的部分;
- 输出令牌:模型在生成回答时输出的部分;
- 推理令牌:涉及更长、更复杂任务和过程时,模型在内部处理的令牌总量。
在企业级AI应用中,令牌数量通常与使用成本直接挂钩。由于令牌代表模型处理的数据量,多数AI服务提供商按令牌计费。企业在使用ChatGPT等服务时,消耗的令牌越多,需支付的费用也越高。
Transfer learning
迁移学习(transfer learning)是一种利用已有模型作为起点,开发新模型的技术。新任务通常与原任务相关,模型可以在此基础上复用部分已学知识。
迁移学习有助于缩短模型开发时间,尤其在目标任务可用数据有限时更为实用。但这种方法也存在局限:依赖迁移学习获得的通用能力,往往仍需额外数据训练,才能在特定领域达到理想表现。
(参见:微调)
Weights
权重(weights)是AI训练过程中的核心参数,用于衡量训练数据中不同特征的重要性,并直接影响模型输出。
在数学上,权重是与输入特征相乘的数值参数。模型训练通常从随机权重开始,随着训练迭代,权重不断调整,使模型输出逐步接近目标结果。
以房价预测模型为例,如果模型基于某地区历史房地产数据进行训练,输入特征可能包括卧室和浴室数量、房屋类型(独栋或半独栋)、是否配备停车位或车库等。最终,模型为每个特征学习到的权重,反映了在给定数据集下,这些因素对房价的相对影响。
本文将根据技术和行业发展情况持续更新,补充新的术语和相关信息。