Meta 发布 AI 基础模型「TRIBE v2」：可预测人脑对多模态刺激的反应，推动“虚拟神经科学实验”

AI 2026-03-29 Meta, TRIBE v2, 神经科学, 多模态AI, 脑活动预测 45 次浏览

Meta 于 2026 年 3 月 26 日发布了一款能够预测人类大脑对视频、音频、语言等多种刺激反应的 AI 基础模型「TRIBE v2」。相关研究成果已在 Meta AI 官方博客和研究演示页面公开，配套论文也同步发布。

TRIBE v2 的目标，是在不给真实受试者做实验的前提下，仅通过计算机模拟来预测大脑活动，从而支持所谓的“虚拟实验”（in-silico neuroscience，计算机上的神经科学研究）。

融合视频・音频・语言的三模态基础模型

TRIBE v2 被设计为一个同时处理三种模态的基础模型：

视频（video）
音频（audio）
语言（language）

当输入电影片段、语音、文本等刺激时，模型会预测人类大脑在这些刺激下的活动模式，并以 fMRI（功能性磁共振成像）中可观测到的脑区激活形式给出结果。与以往多聚焦于“视觉专用”“听觉专用”等单一刺激的脑活动模型不同，TRIBE v2 能在更接近真实生活的多感官情境下，对大脑反应进行统一建模和预测。

在模型结构上，TRIBE v2 组合了 Meta 既有的多种 AI 模型：

使用视频理解模型「V-JEPA2」提取视觉特征
使用音频模型「wav2vec 2.0」提取声音特征
使用语言模型「Llama 3.2」提取文本与语义特征

随后，这些来自不同模态的特征会被输入到 Transformer 结构中进行融合，最终输出对人脑活动的预测结果。

TRIBE v2 的模型结构：通过 V-JEPA2（视频）、wav2vec 2.0（音频）、Llama 3.2（语言）提取特征，再由 Transformer 进行多模态融合，预测人类大脑的活动模式。
tribe2 1.jpg

基于约 720 名受试者、超 1000 小时脑活动数据训练

论文指出，TRIBE v2 使用了来自约 720 名受试者、总时长超过 1000 小时的 fMRI 数据进行训练。

这些数据涵盖了多种自然情境下的大脑活动，例如：

观看电影
聆听语音或音乐
阅读和理解文本

通过将大规模、跨任务、跨模态的神经活动数据整合到同一训练框架中，模型得以学习人类大脑在不同刺激条件下的反应模式。研究报告称，与以往的脑活动预测模型相比，TRIBE v2 在预测精度上实现了数倍的提升。

模型预测与真实脑活动高度吻合

TRIBE v2 能针对音乐、对话、视频等不同类型的刺激，预测人脑在相应条件下的活动分布。论文中展示的结果表明，在多种刺激条件下，模型预测的脑活动与实际 fMRI 测量结果之间具有高度一致性。

示例：对音乐、语言、视频等刺激条件下的大脑活动，比较真实 fMRI 数据（Actual Response）与 TRIBE v2 的预测结果（Model Prediction）。在多种刺激场景中，两者呈现出高度相似的空间分布与变化趋势。
stimulus and model prediction-side.jpg

将神经科学研究迁移到“计算机上的实验”

传统的脑科学研究往往需要：

招募并筛选受试者
设计和反复调整实验范式
安排 fMRI 等昂贵且耗时的脑成像测量

这些步骤不仅成本高、周期长，也限制了研究假设的迭代速度。

借助 TRIBE v2 这类模型，研究者可以在计算机上直接输入各种刺激条件，观察模型给出的脑活动预测结果，用于初步验证假设或探索大脑功能分布。Meta 将这种方式称为「in-silico neuroscience」，即“计算机上的神经科学”。

目前，Meta 已开放 TRIBE v2 的在线演示页面，用户可以在浏览器中体验模型如何根据不同刺激预测脑活动。对于神经科学和 AI 交叉领域的研究者而言，TRIBE v2 有望成为连接大规模脑数据与通用 AI 模型的重要基础设施，并推动更多关于大脑机理与智能本质的研究。

发表评论

登录后才可评论。去登录