富士通发布全新PHOTON架构：将LLM的GPU多路查询效率最高提升至475倍

AI 2026-06-30 富士通, PHOTON, 大语言模型, Transformer, GPU加速 2 次浏览

富士通于2026年6月24日宣布，成功开发出一种面向大规模语言模型（LLM）推理成本削减的新型架构——Parallel Hierarchical Operation for TOp-down Networks（PHOTON）。

与当前主流的 Transformer 架构相比，PHOTON 在多路查询（Multi-Query）场景下的性能可实现最高约 475 倍的提升。这里的“多路查询性能”指的是单位 GPU 资源所能处理的并行输出数量（吞吐量），并不意味着模型本身的精度或单次推理性能提升 475 倍，而是强调：在相同 GPU 资源下，可以同时生成更多结果，从而显著降低推理成本。

Transformer 在长文本与并发场景中的瓶颈

随着生成式 AI 的应用不断扩展，LLM 需要同时满足两类高负载需求：

处理更长的文档、上下文和对话历史；
同时响应大量用户的并发请求。

此外，通过在推理时“让模型思考更久”（例如更长的推理链、更丰富的候选生成）来提升回答质量的做法也日益普及，这进一步推高了计算与内存资源的压力。

在传统 Transformer 中，文本会被拆分为细粒度的token（标记），模型需要在每一步生成时，基于过去的全部 token 计算注意力。随着输入长度增加或并发请求增多：

为保留历史信息，需要频繁读写 KV cache（键值缓存）；
内存访问次数和带宽占用急剧上升；
推理速度容易因内存带宽成为瓶颈而明显下降。

富士通认为，这种瓶颈在长文本处理和大规模并发使用场景中尤为突出，直接制约了 LLM 的服务能力与成本结构。

PHOTON 的设计目标，就是在多智能体、多输入输出等需要大量并行生成的场景下，用更少的 GPU 资源支撑更多请求，从而提升推理效率、降低 GPU 成本。

从“按 token 扫描”到“按语义分层”：PHOTON 的核心思路

PHOTON 与传统 Transformer 的最大差异，在于其对文本的处理方式：

Transformer：以 token 为基本单位，沿时间轴“平面式”逐步扫描和计算；
PHOTON：将文本视为若干语义单元的层级结构，进行分层、分辨率不同的处理。

在常规 Transformer 中，每生成一个新 token，都需要访问此前全部 token 的 KV cache。虽然这种机制保证了较高的建模能力，但在长序列或多路查询时：

KV cache 规模迅速膨胀；
读写频率极高，内存带宽成为主要瓶颈。

PHOTON 则采用了不同的策略：

分层压缩输入：
- 将输入 token 逐步压缩为更高层次的语义表示；
- 以较低更新频率的“文脉状态（上下文状态）”形式进行保存。
自顶向下轻量解码：
- 使用轻量级的自顶向下解码器（top-down decoder），从高层语义状态中重建细粒度的 token 表示；
- 在生成过程中，更多依赖紧凑的分层语义状态，而非完整的 token 级 KV cache。

根据富士通在 arXiv 公开的论文，PHOTON 可被视为一种分层自回归模型：

将传统“水平方向、逐 token 扫描”的访问模式；
替换为“垂直方向、多分辨率的上下文访问”。

通过这种结构，PHOTON 在推理时显著减少了对大规模 KV cache 的依赖，从根本上缓解了内存访问和带宽压力。

1.2B 参数模型上实现约 475 倍多路查询吞吐提升

富士通在 600M、900M、1.2B 三种参数规模的模型上进行了数值实验，对比 PHOTON 与传统 Transformer 在内存占用和生成吞吐方面的表现。

实验结果显示：

在相同硬件条件下，PHOTON 能在更低内存使用量下，提供更高的生成吞吐量；
尤其是在多路并发生成场景中优势明显。

在 1.2B 参数规模的模型上，PHOTON 在允许轻微性能下降的前提下：

相比传统 Transformer，实现了约 475 倍的多路查询计算能力提升；
关键原因在于：PHOTON 每次生成所需的 KV cache 规模更小，使得在同一 GPU 显存预算内，可以并行运行更多条生成任务。

换言之，在相同 GPU 资源下：

传统 Transformer 可能一次只能服务少量请求；
PHOTON 则能同时跑数百倍数量级的并行生成，大幅提升服务能力并摊薄成本。

通过“多路查询结果整合”弥补精度损失

在提升吞吐的同时，富士通还提出了多路查询整合技术，用于在不显著增加单次推理成本的前提下，提升最终答案质量。

其基本思路是：

针对同一个问题，构造若干略有差异的提问方式或候选生成；
使用 PHOTON 并行生成多个回答；
通过一定的整合策略，将这些回答进行融合，得到更高置信度的最终结果。

在验证实验中，富士通发现：

当对 9 条查询结果进行整合时，PHOTON 的整体性能可以达到与传统 Transformer 大致相同的水平；
同时仍然保留了 PHOTON 在多路并行吞吐上的巨大优势。

这意味着，在实际应用中可以通过“多样化提问 + 结果整合”的方式，在不牺牲成本优势的前提下，维持甚至提升模型的回答质量。

将在 ACL 2026 口头报告，目标是全面降低 LLM 运行成本

PHOTON 相关成果计划在 2026 年 7 月 2 日起于美国圣迭戈举行的自然语言处理国际会议 The 64th Annual Meeting of the Association for Computational Linguistics（ACL 2026） 上，以口头报告（Oral）形式进行发布。

富士通表示，未来将围绕 PHOTON 等新一代架构，持续推进生成式 AI 技术的高效化与轻量化，重点方向包括：

提升 GPU 资源利用效率；
降低推理过程中的功耗；
全面压缩大模型的运营与维护成本。

通过在架构层面突破 Transformer 的内存与带宽瓶颈，富士通希望为大规模部署 LLM 提供更具成本优势的技术路径。

发表评论

登录后才可评论。去登录