D-ID周三宣布推出V4表现力视觉代理(Expressive Visual Agents),将其定位为面向企业级应用的新一代超高保真数字人产品,主要用于实时连接大型语言模型(LLM)的对话场景,以及脚本化的长篇企业视频内容制作。
据D-ID介绍,V4头像基于新的扩散模型,并通过真实演员表演数据训练,在生成速度、对话响应与画面表现方面进行了优化。该公司称,V4可实现低于0.5秒的对话延迟,并提供高度精准的唇同步能力,最高支持4K分辨率输出,以满足企业在多样化应用场景中的稳定使用需求。
D-ID表示,V4头像目前已向1500家企业客户及数百万订阅用户开放,产品针对低延迟传输设计,适用于实时对话体验,以及培训模块、说明视频、多语言教育视频等长篇内容制作。公司披露,截至目前,基于其先前模型已创建超过80万个视觉代理和3亿个非交互式头像。V4表现力视觉代理已纳入D-ID所有套餐,起价为每月5.90美元。
在功能层面,D-ID称V4是首批可动态匹配选定情感的高质量表现力头像之一,可在对话过程中根据语气与意图调整面部表情与表达,以提升信息传达的清晰度与一致性。公司强调,V4被设计为AI系统的“视觉接口层”,用于实时双向互动,而非单向视频播放。
此外,V4表现力视觉代理新增可选摄像头层,用于实时情感感知,并将非语言线索反馈至大型语言模型的响应与头像的表现传递,包括语调与面部表情。D-ID还表示,V4可在对话中嵌入交互式用户界面元素,用于展示图片、图表、视频等上下文视觉内容,并可通过D-ID的MCP应用实现表单、测验等结构化交互。

在成本与输出一致性方面,D-ID称,V4头像面向持续且一致的输出而设计,可生成数分钟甚至数小时的视频并保持身份稳定,同时支持大规模实时对话。公司表示,其成本约为谷歌VEO 3 Fast的1/70;在实时互动场景下,使用D-ID的成本为每次聊天“几分钱”。
D-ID联合创始人兼CEO Gil Perry在声明中表示,公司自早期将静态图像转化为“会说话的肖像”以来已取得显著进展,并称V4在头像保真度与性能方面设立了新标准,同时保持对实时对话所需的速度,并具备企业级稳定性、高效性与安全性。
公司还披露,继2025年9月收购simpleshow后,D-ID扩大了企业分销网络,并将AI头像能力整合进simpleshow的企业培训与说明视频生态系统。D-ID称,此后其年度经常性收入增长了250%,反映出交叉销售扩展以及企业对互动式AI驱动视频需求的提升。
D-ID表示,其通过实时流媒体API提供实时互动能力,服务对象包括财富500强企业及使命驱动型组织。公司称,2025年9月收购的simpleshow总部位于柏林,业务覆盖70多个国家,帮助组织通过可扩展的视频沟通简化复杂信息。