富士通发布全新PHOTON架构:将LLM的GPU多路查询效率最高提升至475倍 AI 2026-06-30 富士通提出面向后Transformer时代的大模型新架构PHOTON,通过分层语义表示与自回归解码,大幅降低KV缓存与内存带宽压力,在1.2B参数规模上实现最高约475倍的多路查询吞吐提升。