OpenAI 推出 GPT-5.3-Codex 扩展编码代理至更广泛工作场景
OpenAI 发布新一代编码模型 GPT-5.3-Codex,在保持编码性能的同时强化推理与专业知识能力,并将应用范围从软件开发延伸至更广泛的知识工作任务。
Anthropic 推出升级模型 Claude Opus 4.6 强化大规模代码库处理能力
Anthropic 发布新一代旗舰模型 Claude Opus 4.6,在代码理解、规划与长上下文推理方面较 Opus 4.5 有所提升,并将作为 Claude Code 与 Cowork 等产品的核心底层模型,面向软件开发与日常知识工作场景。
西班牙初创Multiverse Computing发布免费压缩大模型HyperNova 60B
西班牙初创公司Multiverse Computing在Hugging Face上线其压缩大模型HyperNova 60B新版本,宣称在更小体积下保持性能,并在部分指标上优于Mistral Large 3。
OpenAI 发布「GPT-5.4 Thinking」「GPT-5.4 Pro」:大幅强化表格、文档与编码等专业实务能力
OpenAI 正式推出新一代模型 GPT-5.4 系列,在 ChatGPT 与 API 全面上线,重点提升在表格分析、演示文稿制作、前端开发、长文处理等专业工作场景中的实用表现,并提供面向长时复杂任务的高阶版本 GPT-5.4 Pro。
Anthropic新模型Opus 4.6在AI代理法律基准测试中显著提升
Mercor最新基准显示,Anthropic本周发布的Opus 4.6在专业任务测试中得分大幅跃升,凸显代理式AI能力快速演进。
Anthropic发布Opus 4.6 引入“代理团队”并扩展应用场景
Anthropic推出最新版本旗舰模型Opus 4.6,引入“代理团队”功能并扩展上下文窗口和办公集成,以覆盖更广泛的知识工作场景。
OpenAI发布GPT-5.3 Codex自主编码模型 对标Anthropic新产品
OpenAI在推出自主编码工具Codex后两天内再次发布新模型GPT-5.3 Codex,宣称性能较上一版本提升约25%,并可在数天内从零构建复杂应用。该发布紧接竞争对手Anthropic的新模型上线。
AI时代的科学研究:从“提出想法”转向“验证正确性”,16家机构用案例敲响审稿警钟
Google Research、卡内基梅隆大学等16家机构通过使用 Gemini Deep Think 的研究案例表明:AI已能在数学与物理等领域充当“共同研究者”,科学研究的瓶颈正从创意生成转向结果验证,现有同行评审体系面临结构性挑战。
新创实验室“扑翼飞机”获1.8亿美元融资 聚焦低数据需求大模型训练路径
新成立的人工智能实验室“扑翼飞机”宣布完成1.8亿美元种子轮融资,投资方包括谷歌风投、红杉资本和Index。该实验室被视为少数明确选择“以研究为驱动”路线、尝试突破现有规模扩展范式的机构之一。
仅30人团队的Arcee AI发布4000亿参数开源大模型 Trinity
美国初创公司 Arcee AI 宣布推出 4000 亿参数大语言模型 Trinity,采用 Apache 许可证开源。公司称,该模型在多项基准测试中与 Meta 的 Llama 4 Maverick 400B 及清华大学相关团队的 GLM-4.5 处于同一水平,是美国公司发布的最大开源基础模型之一。
从“书呆子”Gemini到“前卫”Grok:开发者如何塑造AI助手的行为边界
多家科技公司正通过规则清单、伦理“宪法”和可调语气等方式塑造聊天机器人的“性格”。这些设定不仅影响互动体验,也会改变模型在敏感议题、风险内容与用户需求之间的取舍。
中国AI企业密集开源推理模型:阿里发布「Qwen3-Max-Thinking」,Moonshot AI推出「Kimi K2.5」
阿里巴巴与Moonshot AI在2026年1月连续发布面向复杂推理与智能体应用的开源大模型「Qwen3-Max-Thinking」与「Kimi K2.5」,在多项权威基准测试中表现接近或达到国际顶级水平,并面向开发者开放API与模型权重。
