约80亿参数模型仅用约1.15GB内存运行：PrismML 发布 1 比特 LLM「Bonsai-8B」，专为边缘 AI 打造

AI 2026-04-08 LLM, 边缘计算, 模型压缩, 量化, 开源模型 3 次浏览

加州理工学院（Caltech）孵化的 AI 初创公司 PrismML 宣布推出大规模语言模型（LLM）「1-bit Bonsai」。这是一款约 80 亿参数的模型，却将内存占用控制在约 1.15GB，体量足以在智能手机等边缘设备上本地运行。

通常来说，8B 级别的 LLM 往往需要十几 GB 的内存。PrismML 通过在模型结构和训练方法上的设计创新，大幅压缩了模型尺寸，同时声称在性能上仍能与同参数规模的主流模型竞争。

与传统量化不同的「1 比特设计」

在缩小 LLM 体积时，常见做法是对训练完成的模型权重进行低比特量化，将其从 16bit、8bit 压缩到更低精度。不过，当比特数降得过低时，模型精度往往会明显劣化，这是传统量化面临的主要难题。

PrismML 采取了完全不同的路径：不是先训练再压缩，而是从一开始就把模型设计成在 1 比特环境下工作。

具体来说，包括以下关键组件在内的整个模型，都以 1 比特为前提进行训练：

将输入文本转换为数值向量的嵌入层（Embedding）
负责处理上下文信息的注意力层（Attention）
生成输出的语言建模头（LM Head）

也就是说，模型并非事后被「压扁」，而是从训练之初就面向低比特环境进行优化，以此尽量降低精度损失。

模型尺寸与性能的平衡

PrismML 公布的对比结果显示，在保持极小模型尺寸的前提下，1-bit Bonsai 系列在多项基准测试中仍具备相当竞争力。

■ 模型尺寸与性能关系对比：1-bit Bonsai 系列在小体量下依然取得了有竞争力的基准测试成绩

与同级别模型的基准测试对照

在 PrismML 公布的基准测试对比中，1-bit Bonsai 8B 的模型大小仅约 1.15GB，却在多个评测项目上取得接近主流 8B 级 LLM 的分数。

■ 与 8B 级 LLM 的基准测试对比：1-bit Bonsai 8B 在大幅缩小模型尺寸的同时，仍保持与同级模型相近的性能

用「智能密度」衡量效率

PrismML 提出了一个用于衡量模型效率的新概念——「智能密度（Intelligence Density）」。

这一指标的定义是：将多个基准测试的平均错误率取负对数，再除以模型大小，得到单位模型容量所能承载的「智能」密度。数值越高，意味着在同样的存储空间下，模型能提供越多的有效智能能力。

根据 PrismML 的评估结果：

1-bit Bonsai 8B：1.06 / GB
Qwen3 8B：0.10 / GB

在这一指标上，1-bit Bonsai 8B 远高于同参数规模的对比模型。

■ 「智能密度」对比：1-bit Bonsai 8B 显著高于同级别模型

面向本地与边缘场景的 AI 模型

1-bit Bonsai 的模型权重以 Apache 2.0 许可证开源发布。

据 PrismML 介绍，该模型可以通过以下方式在不同硬件上运行：

在 Apple 设备上通过 MLX 运行
在 NVIDIA GPU 上通过 llama.cpp CUDA 运行

过去，大模型多以云端推理为主。本次这类极度轻量化的 LLM 出现，意味着在 PC、手机等终端设备上直接本地运行 AI 的场景有望进一步扩展。

「AI 的未来不只在于变大」

PrismML 联合创始人、加州理工学院教授 Babak Hassibi 在 X（原 Twitter）的发文中，对公司的理念做出了概括：

「AI 的未来，并不只是模型越大越好。真正关键的是『智能密度』——在给定的算力、内存和能耗下，模型能提供多少有用的智能。」

他将 1-bit Bonsai 视为这一理念的首个落地案例：

「这不是终点，而是新 AI 范式的起点。智能将扩散到本地设备、边缘、云端，以及各种新产品和新系统之中。」

发表评论

登录后才可评论。去登录