人工智能热潮带火新术语：一份常见概念速览

商业 2026-06-11 科技最前沿人工智能, 大型语言模型, 机器学习, 计算基础设施, 技术词汇 4 次浏览

人工智能技术在全球范围内加速落地，相关产品和服务不断扩张，也带来一整套新的技术语言。短时间内浏览一篇与人工智能相关的文章，读者往往会遇到 LLM、RAG、RLHF 等缩写以及大量新名词，即便是技术背景较强的从业者也可能感到陌生。本文对部分常见术语进行归纳说明，随着技术演进，这类词汇表也在持续更新。

AGI（人工通用智能）

“人工通用智能”（AGI）目前尚无统一定义，但通常指在许多甚至大多数任务上能力超过普通人的人工智能系统。OpenAI 首席执行官 Sam Altman 曾将 AGI 形容为“可以雇来当同事的中等水平人类的等价物”。OpenAI 的章程则将 AGI 定义为“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。

谷歌 DeepMind 的表述略有差异，该机构认为 AGI 是“在大多数认知任务上至少与人类同等能力的人工智能”。不同机构给出的表述并不完全一致，业内研究人员对这一概念的边界也仍在讨论之中。

AI 代理（AI agent）

AI 代理通常指利用人工智能技术，代表用户执行一系列任务的工具，其能力超出简单聊天机器人的问答范畴。例如，报销费用、预订机票或餐厅、编写和维护代码等，都被视为 AI 代理的潜在应用场景。

目前，业界对“AI 代理”的具体内涵尚无统一标准，不同公司和团队的理解存在差异，相关基础设施也仍在建设中。较为普遍的描述是：AI 代理是一个具有一定自主性的系统，可以在多步骤任务中调用多个模型或工具，完成从规划到执行的一整套操作。

API 端点（API endpoints）

API 端点可被理解为软件系统对外暴露的“按钮”，其他程序通过调用这些接口，触发相应功能。例如，一个应用可以通过 API 从另一个应用获取数据，或让 AI 代理直接控制第三方服务，而无需人工逐一操作界面。

多数智能家居设备和连接平台在后台都依赖这类接口，但普通用户通常不会直接接触。随着 AI 代理能力提升，它们在一定程度上可以自动发现并使用这些端点，从而实现更大范围的自动化。

链式思维（Chain of thought）

在人类解决问题时，简单问题可以直接给出答案，复杂问题则往往需要拆解为多个中间步骤。例如，农场主拥有鸡和牛，共 40 个头、120 条腿，需要通过列方程才能得出具体数量。

在人工智能领域，“链式思维”指大型语言模型在推理时，将问题拆分为一系列中间步骤，以提高最终答案的准确性。这通常会增加生成答案所需时间，但在逻辑推理或代码编写等场景中，有助于提升正确率。部分新一代“推理模型”是在传统大型语言模型基础上，通过强化学习等方式优化，以更好支持这类多步推理。

编码代理（Coding agents）

编码代理是 AI 代理在软件开发领域的具体应用形式。与仅提供代码建议、由人工复制粘贴的工具不同，编码代理可以在较高自主度下编写、测试和调试代码，承担大量重复性、迭代性工作。

这类代理可以在整个代码库范围内操作，查找漏洞、运行测试并提交修复，所需人工监督相对较少。但其输出通常仍需开发人员审核和把关。

计算资源（Compute）

在人工智能语境中，“计算”（compute）通常指支撑模型训练和推理的计算能力，主要由 GPU、CPU、TPU 等硬件提供。这些芯片构成了当前人工智能产业的基础设施，用于训练大规模模型以及在实际应用中部署和运行模型。

深度学习（Deep learning）

深度学习是机器学习的一个重要分支，其核心是多层人工神经网络结构。与线性模型、决策树等较简单的机器学习方法相比，深度学习可以捕捉更复杂的特征和关联。

在深度学习框架下，模型可以自动从数据中提取关键特征，而不必完全依赖人工特征工程。模型通过不断对错误进行调整来改进输出，但这通常需要数量庞大的训练数据（往往达到数百万级别或以上），训练时间和成本也相对更高。

扩散（Diffusion）

扩散模型是当前图像、音乐和部分文本生成系统的重要技术基础之一。其原理受物理学中扩散过程启发：模型先通过逐步加入噪声“破坏”原始数据（如照片或音频），直至数据结构完全被噪声覆盖，再学习如何从纯噪声中“反向”恢复出结构化数据。

与现实世界中糖溶于咖啡后难以恢复成方糖不同，人工智能中的扩散模型专门学习这一“逆过程”，从而生成新的图像、音频等内容。

蒸馏（Distillation）

模型蒸馏是一种“教师—学生”式的训练技术，用于从大型模型中提取知识。开发者向体量更大的教师模型发送请求，记录其输出，并在部分情况下与标注数据对比，以评估质量。随后使用这些输出训练体量更小的学生模型，使其在行为上接近教师模型。

蒸馏有助于在尽量保持性能的前提下，构建更小、更高效的模型。业界普遍认为，诸如 GPT-4 Turbo 等更快版本的大模型，可能就采用了类似方法进行优化。各大公司在内部广泛使用蒸馏技术，也有企业尝试通过对竞争对手模型进行蒸馏来追赶前沿能力，但此类做法往往与相关 API 或聊天服务的使用条款相冲突。

微调（Fine-tuning）

微调是指在已有模型基础上，使用更具针对性的新数据进行进一步训练，使模型在特定任务或垂直领域表现更好。许多创业公司以通用大型语言模型为底座，再结合自身行业数据和专业知识进行微调，以提升在特定业务场景中的实用性。

GAN（生成对抗网络）

生成对抗网络（GAN）是一类机器学习框架，在生成逼真图像、视频等内容方面发挥了重要作用，包括部分“深度伪造”工具。GAN 由一对神经网络组成：生成器负责生成样本，判别器负责判断样本是真实数据还是生成数据。

两个网络在训练过程中处于对抗状态：生成器不断尝试“骗过”判别器，判别器则努力识别出生成样本。通过这种博弈，生成结果逐步趋于逼真。GAN 在生成高保真图像等特定任务上表现突出，但并不适合作为通用人工智能的基础架构。

幻觉（Hallucination）

在生成式人工智能领域，“幻觉”指模型输出与事实不符、凭空“编造”信息的情况。这一问题直接影响模型的可靠性，在医疗等敏感场景中可能带来现实风险，例如给出不准确甚至有害的健康建议。

幻觉通常被认为与训练数据覆盖不完整等因素有关。为降低此类风险，业界正在探索更专业化、垂直化的模型，即针对特定领域构建知识更集中的系统，以减少知识空白和错误信息的产生。

推理（Inference）

推理是指在模型训练完成后，利用其对新输入进行预测或生成输出的过程。模型必须先在训练阶段学习数据模式，才能在推理阶段进行有效判断或生成。

从智能手机处理器到高性能 GPU，再到专用 AI 加速芯片，多种硬件都可以执行推理。但不同硬件在效率和速度上差异明显。体量较大的模型在普通笔记本电脑上推理可能耗时较长，而在配备高端 AI 芯片的云服务器上则可以显著加速。

大型语言模型（LLM）

大型语言模型（LLM）是当前主流对话式人工智能系统的核心技术基础，包括 ChatGPT、Claude、谷歌 Gemini、Meta 的 Llama 系列、微软 Copilot 以及 Mistral 的 Le Chat 等产品背后均采用类似架构。

这类模型通常由数十亿个参数（权重）构成的深度神经网络组成，通过学习大规模文本数据中词语和短语之间的统计关系，形成一种多维度的语言表示。当用户输入提示时，模型会基于已学习的模式，生成在统计上最可能符合该提示的文本序列。

内存缓存（Memory cache）

内存缓存是一种用于提升推理效率的技术。由于模型推理涉及大量数学运算，每次计算都消耗算力和能量，缓存通过保存部分中间计算结果，减少重复计算，从而加快响应速度。

在基于 Transformer 的模型中，较为常见的是键值（KV）缓存。通过复用先前步骤中已计算的表示，KV 缓存可以减少生成后续内容时的计算量，提高整体推理效率。

神经网络（Neural network）

神经网络是深度学习的基础结构，也是当前生成式人工智能工具的重要底层技术。其设计灵感来自人脑中神经元之间的连接方式，通过多层结构对数据进行逐级处理和抽象。

这一概念可追溯至 20 世纪 40 年代，但真正推动其大规模应用的是图形处理单元（GPU）的普及。源自游戏产业的 GPU 非常适合并行计算，使得层数更深、规模更大的神经网络得以训练，并在语音识别、自动驾驶导航、药物发现等领域取得显著进展。

开源（Open source）

在软件和人工智能领域，“开源”指底层代码公开，任何人都可以查看、使用或修改。Meta 的 Llama 系列模型是人工智能领域的代表性案例，操作系统领域的 Linux 则是历史上的典型例子。

开源模式有利于全球研究人员、开发者和企业在彼此成果基础上迭代，也便于开展独立安全审计。与之相对的是闭源模式，即代码不对外公开，用户只能使用产品而无法查看其内部实现，例如 OpenAI 的 GPT 系列模型。开源与闭源之争已成为人工智能行业的重要议题之一。

并行化（Parallelization）

并行化是指同时执行多项计算任务，而非顺序完成。在人工智能训练和推理中，并行化是核心机制之一。现代 GPU 被设计为可以并行执行成千上万次计算，这也是其成为人工智能基础硬件的重要原因。

随着模型规模和复杂度不断提升，如何在多芯片、多服务器之间高效并行处理，已成为影响模型训练速度和成本的关键因素，相关并行化策略的研究也逐渐形成独立方向。

RAMageddon

“RAMageddon”是一个行业内流行的戏称，用来描述随机存取存储器（RAM）芯片供应趋紧的现象。RAM 是各类电子设备的关键组件，人工智能产业扩张带动大型科技公司和实验室大量采购 RAM，用于数据中心和模型训练，挤压了其他领域的供应。

这一趋势被认为对游戏、消费电子和企业计算等行业产生影响。例如，部分游戏机厂商因内存芯片供应紧张而上调售价，智能手机出货量也受到制约，企业数据中心扩容同样面临内存不足的问题。价格上涨被普遍认为与供应瓶颈有关，目前尚无明显缓解迹象。

强化学习（Reinforcement learning）

强化学习是一种通过“试错”和“奖励”机制训练模型的方法。系统在与环境交互过程中采取行动，根据结果获得正向或负向反馈，并据此调整策略。

与依赖固定标注数据集的监督学习不同，强化学习允许模型在动态环境中不断探索和改进。该方法在游戏对战、机器人控制等场景中应用广泛，近年来也被用于提升大型语言模型的推理能力。其中，基于人类反馈的强化学习（RLHF）已成为多家领先实验室用于微调模型、改善有用性和安全性的关键技术之一。

Token（令牌）

在语言模型中，Token 是模型处理和生成的最小文本单位，通常对应于一个词或词的一部分。通过“分词”过程，原始文本被拆分为一串 Token，模型在这一层面上进行计算和预测。

Token 也是计量模型工作量和计费的重要指标。多数面向企业和开发者的人工智能服务按 Token 数量收费，输入和输出 Token 越多，成本通常越高。

Token 吞吐量（Token throughput）

Token 吞吐量指系统在单位时间内可以处理的 Token 数量，是衡量语言模型服务能力和效率的重要指标。较高的 Token 吞吐量意味着系统可以同时服务更多用户，并在相同时间内完成更多推理任务。

在基础设施层面，如何提升 Token 吞吐量已成为工程团队的重点目标之一。业内研究人员也曾将闲置的计算资源比作未被充分利用的昂贵硬件，反映出对提高整体利用率和吞吐能力的关注。

训练（Training）

训练是机器学习模型开发的核心环节，即向模型输入大量数据，让其学习其中的模式并调整参数，以实现既定目标，例如识别图像中的猫或生成特定风格的文本。

训练过程通常需要大量数据和算力，成本较高。为控制成本，一些团队采用混合策略，例如在已有模型基础上进行微调，而非从零开始训练完整模型。

迁移学习（Transfer learning）

迁移学习是指在已训练模型的基础上，针对不同但相关的任务进行再训练，将原有训练中获得的知识迁移到新任务上。这种方法可以缩短开发周期，尤其适用于新任务可用数据有限的情况。

不过，迁移学习并非适用于所有场景。依赖迁移获得通用能力的模型，往往仍需额外数据和训练，才能在特定细分领域达到理想表现。

权重（Weights）

权重是神经网络中的核心参数，用于衡量输入特征在模型决策中的重要性。训练过程中，模型通过不断调整权重，使输出更接近目标结果。

以房价预测模型为例，输入特征可能包括卧室数量、浴室数量、房屋类型、是否配备停车位或车库等。训练完成后，各特征对应的权重反映了它们在该数据集下对房价的相对影响程度。

验证损失（Validation loss）

验证损失是衡量模型在验证数据集上表现的数值指标，数值越低通常表示模型在该阶段的预测越接近真实值。研究人员会在训练过程中持续监测验证损失，以决定是否需要调整超参数、延长或停止训练，或排查潜在问题。

验证损失还用于识别“过拟合”现象，即模型过度记忆训练数据，而无法很好地泛化到新数据。通过比较训练损失和验证损失的变化，可以判断模型是在真正学习可推广的模式，还是仅仅在记忆已有样本。

本文所涉术语及说明将随相关技术和行业实践发展适时更新。

发表评论

登录后才可评论。去登录