人工智能热潮带火新术语:一份常见概念速览

richlovec 1500_400 (1)
 

人工智能技术在全球范围内加速落地,相关产品和服务不断扩张,也带来一整套新的技术语言。短时间内浏览一篇与人工智能相关的文章,读者往往会遇到 LLM、RAG、RLHF 等缩写以及大量新名词,即便是技术背景较强的从业者也可能感到陌生。本文对部分常见术语进行归纳说明,随着技术演进,这类词汇表也在持续更新。

AGI(人工通用智能)

“人工通用智能”(AGI)目前尚无统一定义,但通常指在许多甚至大多数任务上能力超过普通人的人工智能系统。OpenAI 首席执行官 Sam Altman 曾将 AGI 形容为“可以雇来当同事的中等水平人类的等价物”。OpenAI 的章程则将 AGI 定义为“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。

谷歌 DeepMind 的表述略有差异,该机构认为 AGI 是“在大多数认知任务上至少与人类同等能力的人工智能”。不同机构给出的表述并不完全一致,业内研究人员对这一概念的边界也仍在讨论之中。

AI 代理(AI agent)

AI 代理通常指利用人工智能技术,代表用户执行一系列任务的工具,其能力超出简单聊天机器人的问答范畴。例如,报销费用、预订机票或餐厅、编写和维护代码等,都被视为 AI 代理的潜在应用场景。

目前,业界对“AI 代理”的具体内涵尚无统一标准,不同公司和团队的理解存在差异,相关基础设施也仍在建设中。较为普遍的描述是:AI 代理是一个具有一定自主性的系统,可以在多步骤任务中调用多个模型或工具,完成从规划到执行的一整套操作。

API 端点(API endpoints)

API 端点可被理解为软件系统对外暴露的“按钮”,其他程序通过调用这些接口,触发相应功能。例如,一个应用可以通过 API 从另一个应用获取数据,或让 AI 代理直接控制第三方服务,而无需人工逐一操作界面。

多数智能家居设备和连接平台在后台都依赖这类接口,但普通用户通常不会直接接触。随着 AI 代理能力提升,它们在一定程度上可以自动发现并使用这些端点,从而实现更大范围的自动化。

链式思维(Chain of thought)

在人类解决问题时,简单问题可以直接给出答案,复杂问题则往往需要拆解为多个中间步骤。例如,农场主拥有鸡和牛,共 40 个头、120 条腿,需要通过列方程才能得出具体数量。

在人工智能领域,“链式思维”指大型语言模型在推理时,将问题拆分为一系列中间步骤,以提高最终答案的准确性。这通常会增加生成答案所需时间,但在逻辑推理或代码编写等场景中,有助于提升正确率。部分新一代“推理模型”是在传统大型语言模型基础上,通过强化学习等方式优化,以更好支持这类多步推理。

编码代理(Coding agents)

编码代理是 AI 代理在软件开发领域的具体应用形式。与仅提供代码建议、由人工复制粘贴的工具不同,编码代理可以在较高自主度下编写、测试和调试代码,承担大量重复性、迭代性工作。

这类代理可以在整个代码库范围内操作,查找漏洞、运行测试并提交修复,所需人工监督相对较少。但其输出通常仍需开发人员审核和把关。

计算资源(Compute)

在人工智能语境中,“计算”(compute)通常指支撑模型训练和推理的计算能力,主要由 GPU、CPU、TPU 等硬件提供。这些芯片构成了当前人工智能产业的基础设施,用于训练大规模模型以及在实际应用中部署和运行模型。

深度学习(Deep learning)

深度学习是机器学习的一个重要分支,其核心是多层人工神经网络结构。与线性模型、决策树等较简单的机器学习方法相比,深度学习可以捕捉更复杂的特征和关联。

在深度学习框架下,模型可以自动从数据中提取关键特征,而不必完全依赖人工特征工程。模型通过不断对错误进行调整来改进输出,但这通常需要数量庞大的训练数据(往往达到数百万级别或以上),训练时间和成本也相对更高。

扩散(Diffusion)

扩散模型是当前图像、音乐和部分文本生成系统的重要技术基础之一。其原理受物理学中扩散过程启发:模型先通过逐步加入噪声“破坏”原始数据(如照片或音频),直至数据结构完全被噪声覆盖,再学习如何从纯噪声中“反向”恢复出结构化数据。

与现实世界中糖溶于咖啡后难以恢复成方糖不同,人工智能中的扩散模型专门学习这一“逆过程”,从而生成新的图像、音频等内容。

蒸馏(Distillation)

模型蒸馏是一种“教师—学生”式的训练技术,用于从大型模型中提取知识。开发者向体量更大的教师模型发送请求,记录其输出,并在部分情况下与标注数据对比,以评估质量。随后使用这些输出训练体量更小的学生模型,使其在行为上接近教师模型。

蒸馏有助于在尽量保持性能的前提下,构建更小、更高效的模型。业界普遍认为,诸如 GPT-4 Turbo 等更快版本的大模型,可能就采用了类似方法进行优化。各大公司在内部广泛使用蒸馏技术,也有企业尝试通过对竞争对手模型进行蒸馏来追赶前沿能力,但此类做法往往与相关 API 或聊天服务的使用条款相冲突。

微调(Fine-tuning)

微调是指在已有模型基础上,使用更具针对性的新数据进行进一步训练,使模型在特定任务或垂直领域表现更好。许多创业公司以通用大型语言模型为底座,再结合自身行业数据和专业知识进行微调,以提升在特定业务场景中的实用性。

GAN(生成对抗网络)

生成对抗网络(GAN)是一类机器学习框架,在生成逼真图像、视频等内容方面发挥了重要作用,包括部分“深度伪造”工具。GAN 由一对神经网络组成:生成器负责生成样本,判别器负责判断样本是真实数据还是生成数据。

两个网络在训练过程中处于对抗状态:生成器不断尝试“骗过”判别器,判别器则努力识别出生成样本。通过这种博弈,生成结果逐步趋于逼真。GAN 在生成高保真图像等特定任务上表现突出,但并不适合作为通用人工智能的基础架构。

幻觉(Hallucination)

在生成式人工智能领域,“幻觉”指模型输出与事实不符、凭空“编造”信息的情况。这一问题直接影响模型的可靠性,在医疗等敏感场景中可能带来现实风险,例如给出不准确甚至有害的健康建议。

幻觉通常被认为与训练数据覆盖不完整等因素有关。为降低此类风险,业界正在探索更专业化、垂直化的模型,即针对特定领域构建知识更集中的系统,以减少知识空白和错误信息的产生。

推理(Inference)

推理是指在模型训练完成后,利用其对新输入进行预测或生成输出的过程。模型必须先在训练阶段学习数据模式,才能在推理阶段进行有效判断或生成。

从智能手机处理器到高性能 GPU,再到专用 AI 加速芯片,多种硬件都可以执行推理。但不同硬件在效率和速度上差异明显。体量较大的模型在普通笔记本电脑上推理可能耗时较长,而在配备高端 AI 芯片的云服务器上则可以显著加速。

大型语言模型(LLM)

大型语言模型(LLM)是当前主流对话式人工智能系统的核心技术基础,包括 ChatGPT、Claude、谷歌 Gemini、Meta 的 Llama 系列、微软 Copilot 以及 Mistral 的 Le Chat 等产品背后均采用类似架构。

这类模型通常由数十亿个参数(权重)构成的深度神经网络组成,通过学习大规模文本数据中词语和短语之间的统计关系,形成一种多维度的语言表示。当用户输入提示时,模型会基于已学习的模式,生成在统计上最可能符合该提示的文本序列。

内存缓存(Memory cache)

内存缓存是一种用于提升推理效率的技术。由于模型推理涉及大量数学运算,每次计算都消耗算力和能量,缓存通过保存部分中间计算结果,减少重复计算,从而加快响应速度。

在基于 Transformer 的模型中,较为常见的是键值(KV)缓存。通过复用先前步骤中已计算的表示,KV 缓存可以减少生成后续内容时的计算量,提高整体推理效率。

神经网络(Neural network)

神经网络是深度学习的基础结构,也是当前生成式人工智能工具的重要底层技术。其设计灵感来自人脑中神经元之间的连接方式,通过多层结构对数据进行逐级处理和抽象。

这一概念可追溯至 20 世纪 40 年代,但真正推动其大规模应用的是图形处理单元(GPU)的普及。源自游戏产业的 GPU 非常适合并行计算,使得层数更深、规模更大的神经网络得以训练,并在语音识别、自动驾驶导航、药物发现等领域取得显著进展。

开源(Open source)

在软件和人工智能领域,“开源”指底层代码公开,任何人都可以查看、使用或修改。Meta 的 Llama 系列模型是人工智能领域的代表性案例,操作系统领域的 Linux 则是历史上的典型例子。

开源模式有利于全球研究人员、开发者和企业在彼此成果基础上迭代,也便于开展独立安全审计。与之相对的是闭源模式,即代码不对外公开,用户只能使用产品而无法查看其内部实现,例如 OpenAI 的 GPT 系列模型。开源与闭源之争已成为人工智能行业的重要议题之一。

并行化(Parallelization)

并行化是指同时执行多项计算任务,而非顺序完成。在人工智能训练和推理中,并行化是核心机制之一。现代 GPU 被设计为可以并行执行成千上万次计算,这也是其成为人工智能基础硬件的重要原因。

随着模型规模和复杂度不断提升,如何在多芯片、多服务器之间高效并行处理,已成为影响模型训练速度和成本的关键因素,相关并行化策略的研究也逐渐形成独立方向。

RAMageddon

“RAMageddon”是一个行业内流行的戏称,用来描述随机存取存储器(RAM)芯片供应趋紧的现象。RAM 是各类电子设备的关键组件,人工智能产业扩张带动大型科技公司和实验室大量采购 RAM,用于数据中心和模型训练,挤压了其他领域的供应。

这一趋势被认为对游戏、消费电子和企业计算等行业产生影响。例如,部分游戏机厂商因内存芯片供应紧张而上调售价,智能手机出货量也受到制约,企业数据中心扩容同样面临内存不足的问题。价格上涨被普遍认为与供应瓶颈有关,目前尚无明显缓解迹象。

强化学习(Reinforcement learning)

强化学习是一种通过“试错”和“奖励”机制训练模型的方法。系统在与环境交互过程中采取行动,根据结果获得正向或负向反馈,并据此调整策略。

与依赖固定标注数据集的监督学习不同,强化学习允许模型在动态环境中不断探索和改进。该方法在游戏对战、机器人控制等场景中应用广泛,近年来也被用于提升大型语言模型的推理能力。其中,基于人类反馈的强化学习(RLHF)已成为多家领先实验室用于微调模型、改善有用性和安全性的关键技术之一。

Token(令牌)

在语言模型中,Token 是模型处理和生成的最小文本单位,通常对应于一个词或词的一部分。通过“分词”过程,原始文本被拆分为一串 Token,模型在这一层面上进行计算和预测。

Token 也是计量模型工作量和计费的重要指标。多数面向企业和开发者的人工智能服务按 Token 数量收费,输入和输出 Token 越多,成本通常越高。

Token 吞吐量(Token throughput)

Token 吞吐量指系统在单位时间内可以处理的 Token 数量,是衡量语言模型服务能力和效率的重要指标。较高的 Token 吞吐量意味着系统可以同时服务更多用户,并在相同时间内完成更多推理任务。

在基础设施层面,如何提升 Token 吞吐量已成为工程团队的重点目标之一。业内研究人员也曾将闲置的计算资源比作未被充分利用的昂贵硬件,反映出对提高整体利用率和吞吐能力的关注。

训练(Training)

训练是机器学习模型开发的核心环节,即向模型输入大量数据,让其学习其中的模式并调整参数,以实现既定目标,例如识别图像中的猫或生成特定风格的文本。

训练过程通常需要大量数据和算力,成本较高。为控制成本,一些团队采用混合策略,例如在已有模型基础上进行微调,而非从零开始训练完整模型。

迁移学习(Transfer learning)

迁移学习是指在已训练模型的基础上,针对不同但相关的任务进行再训练,将原有训练中获得的知识迁移到新任务上。这种方法可以缩短开发周期,尤其适用于新任务可用数据有限的情况。

不过,迁移学习并非适用于所有场景。依赖迁移获得通用能力的模型,往往仍需额外数据和训练,才能在特定细分领域达到理想表现。

权重(Weights)

权重是神经网络中的核心参数,用于衡量输入特征在模型决策中的重要性。训练过程中,模型通过不断调整权重,使输出更接近目标结果。

以房价预测模型为例,输入特征可能包括卧室数量、浴室数量、房屋类型、是否配备停车位或车库等。训练完成后,各特征对应的权重反映了它们在该数据集下对房价的相对影响程度。

验证损失(Validation loss)

验证损失是衡量模型在验证数据集上表现的数值指标,数值越低通常表示模型在该阶段的预测越接近真实值。研究人员会在训练过程中持续监测验证损失,以决定是否需要调整超参数、延长或停止训练,或排查潜在问题。

验证损失还用于识别“过拟合”现象,即模型过度记忆训练数据,而无法很好地泛化到新数据。通过比较训练损失和验证损失的变化,可以判断模型是在真正学习可推广的模式,还是仅仅在记忆已有样本。

本文所涉术语及说明将随相关技术和行业实践发展适时更新。


分享:


发表评论

登录后才可评论。 去登录