D-ID推出V4表现力视觉代理，主打低延迟与4K超高保真数字人

AI 2026-03-18 小A聊AI 生成式AI, 数字人, 企业软件, 大语言模型, 视频技术 92 次浏览

D-ID周三宣布推出V4表现力视觉代理（Expressive Visual Agents），将其定位为面向企业级应用的新一代超高保真数字人产品，主要用于实时连接大型语言模型（LLM）的对话场景，以及脚本化的长篇企业视频内容制作。

据D-ID介绍，V4头像基于新的扩散模型，并通过真实演员表演数据训练，在生成速度、对话响应与画面表现方面进行了优化。该公司称，V4可实现低于0.5秒的对话延迟，并提供高度精准的唇同步能力，最高支持4K分辨率输出，以满足企业在多样化应用场景中的稳定使用需求。

D-ID表示，V4头像目前已向1500家企业客户及数百万订阅用户开放，产品针对低延迟传输设计，适用于实时对话体验，以及培训模块、说明视频、多语言教育视频等长篇内容制作。公司披露，截至目前，基于其先前模型已创建超过80万个视觉代理和3亿个非交互式头像。V4表现力视觉代理已纳入D-ID所有套餐，起价为每月5.90美元。

在功能层面，D-ID称V4是首批可动态匹配选定情感的高质量表现力头像之一，可在对话过程中根据语气与意图调整面部表情与表达，以提升信息传达的清晰度与一致性。公司强调，V4被设计为AI系统的“视觉接口层”，用于实时双向互动，而非单向视频播放。

此外，V4表现力视觉代理新增可选摄像头层，用于实时情感感知，并将非语言线索反馈至大型语言模型的响应与头像的表现传递，包括语调与面部表情。D-ID还表示，V4可在对话中嵌入交互式用户界面元素，用于展示图片、图表、视频等上下文视觉内容，并可通过D-ID的MCP应用实现表单、测验等结构化交互。

在成本与输出一致性方面，D-ID称，V4头像面向持续且一致的输出而设计，可生成数分钟甚至数小时的视频并保持身份稳定，同时支持大规模实时对话。公司表示，其成本约为谷歌VEO 3 Fast的1/70；在实时互动场景下，使用D-ID的成本为每次聊天“几分钱”。

D-ID联合创始人兼CEO Gil Perry在声明中表示，公司自早期将静态图像转化为“会说话的肖像”以来已取得显著进展，并称V4在头像保真度与性能方面设立了新标准，同时保持对实时对话所需的速度，并具备企业级稳定性、高效性与安全性。

公司还披露，继2025年9月收购simpleshow后，D-ID扩大了企业分销网络，并将AI头像能力整合进simpleshow的企业培训与说明视频生态系统。D-ID称，此后其年度经常性收入增长了250%，反映出交叉销售扩展以及企业对互动式AI驱动视频需求的提升。

D-ID表示，其通过实时流媒体API提供实时互动能力，服务对象包括财富500强企业及使命驱动型组织。公司称，2025年9月收购的simpleshow总部位于柏林，业务覆盖70多个国家，帮助组织通过可扩展的视频沟通简化复杂信息。

发表评论

登录后才可评论。去登录