Tavus推出Phoenix-4实时行为生成引擎

AI 2026-02-24 小A聊AI 人工智能, 生成式AI, 实时视频, 对话式AI, 企业科技 30 次浏览

Tavus表示，公司已发布Phoenix-4实时行为生成引擎，用于在实时对话中生成具备情感响应与上下文感知的“人类存在感”。Tavus将自身定位为构建可实时观察、听取并响应的逼真AI人类的人机计算公司。

Tavus称，Phoenix-4是首个能够以单一统一系统在实时交互中生成并控制情绪状态、主动聆听行为以及连续面部动作的模型。该模型为全双工架构，可同时“聆听”和“响应”，并可生成从头部与肩膀到眨眼等细节的画面。公司表示，开发者可通过其大型语言模型（LLM）与提示词，在说话与聆听两种状态下对情绪表达进行明确控制。

在性能与供给方面，Tavus称Phoenix-4以1080p分辨率、40帧每秒运行，目前已通过Tavus平台、API、PALs以及更新后的Stock Replica库提供，后者新增40多个复制体。

Tavus在介绍中指出，尽管语音合成、语言模型与会话时序已有进展，但会话式人工智能的视觉层面仍相对滞后。公司称，在真实对话中，人类会读取眼神交流、头部动作、停顿与表情变化等行为信号，这些信号会影响互动是否建立信任。Tavus同时表示，许多实时头像系统依赖视频循环或仅生成口型，聆听状态常以预录制循环呈现，可能出现与上下文脱节的动作与视觉伪影，并称市场上缺乏可实现“真正情绪控制”的实时头像模型。

Tavus称，Phoenix-4采用不同路径：不是以音频波形直接驱动面部动画，而是将语音与对话上下文转化为以情感为基础的面部行为。

在产品演进方面，Tavus回顾称，Phoenix系列于2023年首次推出。公司表示，Phoenix-1使用神经辐射场（NeRFs）以3D方式建模头像，并在运行时由LLM与文本转语音（TTS）模型控制；Phoenix-2转向3D高斯点渲染以提升速度并突破实时限制；Phoenix-3将生成范围从嘴部扩展到整个面部；Phoenix-4则将重点放在“行为真实感”。

关于技术架构，Tavus称Phoenix-4基于混合高斯-扩散架构，训练数据来自数千小时的人类对话。其流程包括流式音频特征提取、长期记忆模块与扩散头生成运动系数，随后由3D高斯点渲染器以实时速度输出图像。公司还表示，Phoenix-4采用隐式运动空间，由基于变换器的模型从真实情感数据中无监督学习潜在空间，以替代预定义表情系统，从而实现更自然的面部行为与更强的身份保持。

在功能层面，Tavus称Phoenix-4支持对10多种情绪状态进行实时生成与切换，包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧、兴奋、好奇和满足等；支持上下文感知的主动聆听，可在说话与聆听状态下生成不同的视觉反馈信号，且聆听帧为生成而非预录制循环；说话与聆听状态可无缝切换；并可对头部姿态及面部细节（如眉毛、嘴唇、眼神与眨眼等）进行上下文控制，以生成微表情并减少视觉伪影。

Tavus表示，Phoenix-4由Raven-1提供感知支持，并与Sparrow-1协同实现会话时序，以构建端到端的人机行为栈。

在可用性方面，Tavus称Phoenix-4已通过其平台、API、PALs、定制复制体及更新后的Stock Replica库提供，并可在phoenix.tavuslabs.org体验演示。

发表评论

登录后才可评论。去登录