DeepSeek 发布「DeepSeek‑V4」预览版:开放权重、对标顶级性能,原生支持 100 万上下文
中国 AI 企业 DeepSeek 发布新一代开放权重大模型 DeepSeek‑V4,包含高性能 Pro 版与轻量 Flash 版,两者均原生支持 100 万 Token 长上下文,并在推理、长文处理与 Agent 能力等多项基准测试中宣称达到开放模型第一梯队。
让人工智能在不确定时学会说“我不知道”
麻省理工学院研究人员提出RLCR方法,让大型语言模型在保持甚至提升准确率的同时,大幅改善置信度校准,减少“自信地说错”的情况。
给 AI 智能体设定“寿命”,会诞生出类似文化的现象吗?德州大学团队在虚拟社会中找到线索
美国德克萨斯大学奥斯汀分校与 Cognizant AI Lab 搭建虚拟社会环境 TerraLingua,并为其中的 AI 智能体加入资源约束与有限寿命,观察到知识与规则在多代智能体之间不断积累、演化,呈现出类似人类“累积文化”的现象。
Google Research 发布 TurboQuant:将 LLM KV 缓存压缩至六分之一,实现最高 8 倍推理加速且几乎零精度损失
Google Research 提出全新 KV 缓存压缩方案 TurboQuant,通过极坐标量化等技术,将大模型 KV 缓存压缩 6 倍以上,并在长上下文场景中实现最高约 8 倍推理加速,同时几乎不损失模型精度。
D-ID推出V4表现力视觉代理,主打低延迟与4K超高保真数字人
D-ID宣布发布V4表现力视觉代理,称其基于扩散模型并以真实演员表演数据训练,可实现低于0.5秒对话延迟、精准唇同步与最高4K输出,面向实时对话与长篇企业视频场景。
OpenAI 收购 AI 安全公司 Promptfoo:Fortune 500 超 25% 采用的 LLM 测试工具
OpenAI 宣布收购专注于大模型安全测试的初创公司 Promptfoo,并计划将其评估与安全测试能力整合进企业级 AI 基础设施,以强化生成式 AI 在企业落地过程中的质量与安全保障。
ElastixAI 发布基于FPGA的AI超级计算机方案,获1800万美元种子轮融资
ElastixAI称,其软件-机器学习-硬件协同设计可将大语言模型推理总拥有成本最多降低50倍,并将功耗减少80%。公司由前苹果和Meta机器学习研究人员创立,已结束隐秘研发状态并开放与企业及数据中心合作。
Google 发布 Gemini 3.1 Pro:以“Deep Think 级推理”树立复杂问题求解新基准
Google 推出最新大模型 Gemini 3.1 Pro,将研究模型 Gemini 3 Deep Think 的核心推理能力下放到通用与企业场景,在 ARC-AGI-2 中取得 77.1% 的成绩,同时保持一线的软件开发与代码生成性能。
Amazon在美正式上线生成式AI版「Alexa+」,Prime会员免费用,非会员每月19.99美元
亚马逊宣布在美国正式推出以大模型为基础的全新语音助手「Alexa+」,Prime 会员可免费无限制使用,非会员可选择有限免费体验或每月 19.99 美元的完整订阅方案。
病毒式传播的AI个人助理OpenClaw引发关注:被视为能力跃升,专家提示安全风险
OpenClaw通过消息应用接收指令并可在授权范围内自动执行任务。业内人士称其代表AI代理能力提升,但研究人员警告,赋予代理权限可能带来安全与决策风险。
用“potato”触发对抗式提问:一位用户借助ChatGPT日常检视论证漏洞
大型语言模型在对话中往往倾向于顺着用户的前提展开,帮助把零散想法整理成更顺畅的表达。也因此,有用户在日常使用中引入一个单词“potato”作为触发提示,要求模型从“支持者”切换为“批评者”,以便对自己的论点进行压力测试,识别潜在盲点与薄弱假设。 “potato”提示如何改变回应方式 该用户的做法是将“potato”设定为交互规则的“开关”:当输入“Potato”并附上一个观点时,模型需要忽略常规的
全球Mofy AI宣布成立美国子公司Eaglepoint AI 扩展全球人工智能基础设施
全球Mofy AI(纳斯达克:GMM)表示,将通过在特拉华州设立Eaglepoint AI Inc.,强化数据治理与模型训练支持能力,并推进跨区域运营布局。