Memories.ai 正在尝试为物理世界中的人工智能补上一块关键“拼图”——视觉记忆。
联合创始人兼首席执行官 Shawn Shen 表示,要让人工智能在现实环境中发挥作用,仅有强大的推理和生成能力并不够,还需要能够记住“看过什么”。基于这一判断,Memories.ai 正在搭建一套面向可穿戴设备和机器人的视觉记忆基础设施,使其能够存储并调用视频记录形成的记忆。
与英伟达合作推进视觉记忆技术
Memories.ai 于周一在英伟达 GTC 大会上宣布与英伟达达成合作。根据介绍,公司将利用英伟达的 Cosmos-Reason 2(推理视觉语言模型)以及英伟达 Metropolis(视频搜索和摘要应用),继续推进其视觉记忆技术的研发。
Shen 在接受 TechCrunch 采访时表示,他与联合创始人兼首席技术官 Ben Zhou 在为 Meta Ray-Ban 智能眼镜构建人工智能系统的过程中,萌生了创办 Memories.ai 的想法。那次经历让他们开始思考:如果用户无法有效回忆自己录制的大量视频数据,这类设备在现实生活中的价值将受到限制。
在调研市场后,两人发现尚无公司专门为人工智能构建类似的视觉记忆解决方案,遂从 Meta 分拆出来,成立了 Memories.ai。
Shen 称:“人工智能在数字世界已经表现得非常出色。那么物理世界呢?人工智能可穿戴设备和机器人同样需要记忆……归根结底,你需要人工智能拥有视觉记忆。”
从文本记忆到视觉记忆
具备记忆能力的人工智能系统仍属相对新近的发展方向。OpenAI 在 2024 年为 ChatGPT 增加了记忆功能,并在 2025 年对该功能进行微调。埃隆·马斯克旗下的 xAI 以及谷歌的 Gemini 也在过去两年陆续推出各自的记忆工具。
Shen 指出,目前相关进展主要集中在基于文本的记忆上。与视频相比,文本结构更清晰、索引更容易,但对于主要通过视觉与世界交互的物理人工智能应用而言,这类记忆形式的帮助有限。

融资与技术路径
Memories.ai 成立于 2024 年,迄今已筹集资金 1600 万美元。其中包括 2025 年 7 月完成的 800 万美元种子轮融资及其后续的 800 万美元追加融资。本轮融资由 Susa Ventures 领投,Seedcamp、Fusion Fund 和 Crane Venture Partners 等机构参与。
Shen 表示,要构建起这一视觉记忆层,关键在于两方面:一是搭建能够将视频嵌入并索引为可存储、可调用数据格式的基础设施;二是获取足够的数据来训练相关模型。
公司于 2025 年 7 月推出了其大型视觉记忆模型(LVMM)。Shen 称,该模型可以被视为本月早些时候发布的多模态索引和检索模型 Gemini Embedding 2 的“简化版本”。
在数据采集方面,Memories.ai 自主开发了一款名为 LUCI 的硬件设备,由公司内部的“数据采集员”佩戴,用于录制训练模型所需的视频。Shen 表示,公司并无转型为硬件企业或对外销售该设备的计划,之所以自研,是因为对市面上偏重高清和高功耗的视频录制设备并不满意。
目前,Memories.ai 已发布第二代 LVMM,并与高通签署合作协议,计划从今年晚些时候开始在高通处理器上运行该模型。
面向可穿戴设备与机器人场景
Shen 透露,Memories.ai 正在与多家大型可穿戴设备公司合作,但未披露具体名称。他表示,虽然当前已经看到一定需求,但从更长远看,可穿戴设备和机器人领域的机会更为广阔。
“在商业化方面,我们更专注于模型和基础设施,因为我们最终认为可穿戴设备和机器人市场会到来,只是可能还不是现在。”Shen 说。