从回合制对话到实时协同:前 OpenAI CTO 米拉·穆拉蒂团队发布「Interaction Models」
前 OpenAI CTO 米拉·穆拉蒂创立的 AI 初创公司 Thinking Machines Lab 发布实时协同 AI「Interaction Models」研究预览,试图突破传统回合制聊天模式,让人机可以像人与人一样同时说话、随时打断、根据画面变化即时响应。
微软发布三款多模态基础模型 加强自研AI版图
微软旗下Microsoft AI实验室推出三款可生成文本、语音和图像的新基础模型,并在保持与OpenAI合作的同时加大自研多模态模型布局。
中国 Moonshot AI 发布开源模型「Kimi K2.6」:强化长时编码与 Agent 能力,原生多模态支持视觉信息
中国 AI 企业 Moonshot AI 发布最新开源模型「Kimi K2.6」,在长时间编码、Agent 自主执行以及多模态理解等方面全面升级,并通过官方博客与 API 文档向开发者开放。
Google 发布多模态嵌入模型「Gemini Embedding 2」,统一文本、图像、视频与音频向量空间以强化搜索与推荐
Google 推出新一代多模态嵌入模型 Gemini Embedding 2,通过在同一向量空间中表示文本、图像、视频、音频等多种数据形式,提升搜索、推荐与 RAG 等 AI 应用的精度,并已通过 Gemini API 与 Vertex AI 以公测形式开放。
字节跳动正式发布视频生成模型「Seedance 2.0」,多模态输入与参考控制全面升级
字节跳动在其生成式 AI 平台「即梦(Jimeng)」上正式上线视频生成模型 Seedance 2.0,支持图像、视频、音频与文本四种模态输入,并强化参考素材与编辑控制能力,目前正面向会员与非会员分阶段开放。
Clipto.AI完成新一轮融资 估值超2.5亿美元
Clipto.AI表示,新资金将用于加速设备端多模态AI技术研发并支持全球扩张。自2025年7月以来,公司已连续完成Pre-A、Pre-A+及Pre-A++多轮融资。
