Tavus表示,公司已发布Phoenix-4实时行为生成引擎,用于在实时对话中生成具备情感响应与上下文感知的“人类存在感”。Tavus将自身定位为构建可实时观察、听取并响应的逼真AI人类的人机计算公司。
Tavus称,Phoenix-4是首个能够以单一统一系统在实时交互中生成并控制情绪状态、主动聆听行为以及连续面部动作的模型。该模型为全双工架构,可同时“聆听”和“响应”,并可生成从头部与肩膀到眨眼等细节的画面。公司表示,开发者可通过其大型语言模型(LLM)与提示词,在说话与聆听两种状态下对情绪表达进行明确控制。
在性能与供给方面,Tavus称Phoenix-4以1080p分辨率、40帧每秒运行,目前已通过Tavus平台、API、PALs以及更新后的Stock Replica库提供,后者新增40多个复制体。
Tavus在介绍中指出,尽管语音合成、语言模型与会话时序已有进展,但会话式人工智能的视觉层面仍相对滞后。公司称,在真实对话中,人类会读取眼神交流、头部动作、停顿与表情变化等行为信号,这些信号会影响互动是否建立信任。Tavus同时表示,许多实时头像系统依赖视频循环或仅生成口型,聆听状态常以预录制循环呈现,可能出现与上下文脱节的动作与视觉伪影,并称市场上缺乏可实现“真正情绪控制”的实时头像模型。
Tavus称,Phoenix-4采用不同路径:不是以音频波形直接驱动面部动画,而是将语音与对话上下文转化为以情感为基础的面部行为。

在产品演进方面,Tavus回顾称,Phoenix系列于2023年首次推出。公司表示,Phoenix-1使用神经辐射场(NeRFs)以3D方式建模头像,并在运行时由LLM与文本转语音(TTS)模型控制;Phoenix-2转向3D高斯点渲染以提升速度并突破实时限制;Phoenix-3将生成范围从嘴部扩展到整个面部;Phoenix-4则将重点放在“行为真实感”。
关于技术架构,Tavus称Phoenix-4基于混合高斯-扩散架构,训练数据来自数千小时的人类对话。其流程包括流式音频特征提取、长期记忆模块与扩散头生成运动系数,随后由3D高斯点渲染器以实时速度输出图像。公司还表示,Phoenix-4采用隐式运动空间,由基于变换器的模型从真实情感数据中无监督学习潜在空间,以替代预定义表情系统,从而实现更自然的面部行为与更强的身份保持。
在功能层面,Tavus称Phoenix-4支持对10多种情绪状态进行实时生成与切换,包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧、兴奋、好奇和满足等;支持上下文感知的主动聆听,可在说话与聆听状态下生成不同的视觉反馈信号,且聆听帧为生成而非预录制循环;说话与聆听状态可无缝切换;并可对头部姿态及面部细节(如眉毛、嘴唇、眼神与眨眼等)进行上下文控制,以生成微表情并减少视觉伪影。
Tavus表示,Phoenix-4由Raven-1提供感知支持,并与Sparrow-1协同实现会话时序,以构建端到端的人机行为栈。
在可用性方面,Tavus称Phoenix-4已通过其平台、API、PALs、定制复制体及更新后的Stock Replica库提供,并可在phoenix.tavuslabs.org体验演示。
