MemryX Inc.宣布其下一代AI推理加速器MX4的战略路线图。公司表示,MX4旨在将其“内存内(at-memory)”数据流架构从边缘部署扩展至数据中心,并计划借助3D混合键合(hybrid-bonded)内存,以缓解行业普遍面临的“内存墙”问题。
MemryX称,公司目前已量产MX3芯片,在特定AI推理应用中可实现相较主流GPU超过20倍的每瓦性能提升。在此基础上,MX4将面向越来越受限于内存容量、带宽与能效的数据中心工作负载。
公司披露,已与一家“下一代3D内存”合作伙伴签署协议,将开展一项2026年专用测试芯片计划,用于验证目标为约5µm级的混合键合接口以及“直连计算tile”的内存集成方案。该合作伙伴目前未对外披露。
在软件层面,MemryX表示将以已量产验证的MX3软件栈(包括编译器与运行时)作为MX4的基础。尽管MX4将引入支持更大内存规模与数据中心级配置的新能力,但路线图将尽量保留MX3的编程模型与工具链关键要素,以缩短现有及新客户的部署周期。
在应用方向上,MemryX称,除大语言模型(LLMs)外,数据中心正加速转向大型行动模型(LAMs)、高分辨率多模态视觉以及实时推荐引擎等“前沿工作负载”。公司认为,这类负载对大容量内存与可预测吞吐的需求更高,而传统基于2.5D HBM的架构在效率上面临挑战。MX4的设计思路是将高带宽内存直接键合到计算tile上,以减少数据搬运带来的限制。

在架构层面,MemryX表示,MX4延续MX3的数据驱动生产者/消费者流控模型,并强调其与依赖全局同步时钟的设计不同。公司称,同步时钟在3D堆叠扩展时可能带来时钟偏斜与热设计挑战;MX4通过tile独立运行、按数据可用性触发处理的方式实现扩展,并通过3D内存到计算tile的直接接口,避免传统架构中集中式内存瓶颈。与MX3使用2D嵌入式SRAM不同,MX4计划在不依赖单一共享控制器的情况下,将计算tile直接连接至3D内存。
MemryX还表示,MX4架构在内存技术上保持一定兼容性,计划支持多种“直连3D内存”形态,包括现有堆叠DRAM以及新兴的FeRAM级技术。
在量产节奏方面,MemryX给出的目标时间表为:
- 2026年:与3D内存供应商合作推出专用测试芯片,验证约5µm级混合键合接口与直连tile的3D内存集成
- 2027年:MX4向首批客户送样
- 2028年:MX4发布量产版本,系统形态从单芯片扩展至多芯片数据中心阵列,支持超过1TB的内存配置
MemryX首席执行官Keith Kressin表示,行业已认识到确定性数据流架构在AI推理中的潜力,但效率与规模同样关键。公司希望通过将异步流模型与3D混合键合结合,降低实现高能效、万亿参数级扩展的物理限制。
MemryX同时提示,相关规格、合作伙伴与时间表为目标规划,后续可能调整。
查看原文:https://ai-techpark.com/memryx-unveils-mx4-roadmap/
