大模型

OpenAI 推出 GPT-5.3-Codex 扩展编码代理至更广泛工作场景

商业 2026-03-14 商业现场

OpenAI 发布新一代编码模型 GPT-5.3-Codex，在保持编码性能的同时强化推理与专业知识能力，并将应用范围从软件开发延伸至更广泛的知识工作任务。

Anthropic 推出升级模型 Claude Opus 4.6 强化大规模代码库处理能力

商业 2026-03-13 商业现场

Anthropic 发布新一代旗舰模型 Claude Opus 4.6，在代码理解、规划与长上下文推理方面较 Opus 4.5 有所提升，并将作为 Claude Code 与 Cowork 等产品的核心底层模型，面向软件开发与日常知识工作场景。

西班牙初创Multiverse Computing发布免费压缩大模型HyperNova 60B

商业 2026-03-12 科技最前沿

西班牙初创公司Multiverse Computing在Hugging Face上线其压缩大模型HyperNova 60B新版本，宣称在更小体积下保持性能，并在部分指标上优于Mistral Large 3。

OpenAI 发布「GPT-5.4 Thinking」「GPT-5.4 Pro」：大幅强化表格、文档与编码等专业实务能力

AI 2026-03-07

OpenAI 正式推出新一代模型 GPT-5.4 系列，在 ChatGPT 与 API 全面上线，重点提升在表格分析、演示文稿制作、前端开发、长文处理等专业工作场景中的实用表现，并提供面向长时复杂任务的高阶版本 GPT-5.4 Pro。

Anthropic新模型Opus 4.6在AI代理法律基准测试中显著提升

商业 2026-02-27 科技最前沿

Mercor最新基准显示，Anthropic本周发布的Opus 4.6在专业任务测试中得分大幅跃升，凸显代理式AI能力快速演进。

Anthropic发布Opus 4.6 引入“代理团队”并扩展应用场景

商业 2026-02-25 科技最前沿

Anthropic推出最新版本旗舰模型Opus 4.6，引入“代理团队”功能并扩展上下文窗口和办公集成，以覆盖更广泛的知识工作场景。

OpenAI发布GPT-5.3 Codex自主编码模型对标Anthropic新产品

商业 2026-02-25 科技最前沿

OpenAI在推出自主编码工具Codex后两天内再次发布新模型GPT-5.3 Codex，宣称性能较上一版本提升约25%，并可在数天内从零构建复杂应用。该发布紧接竞争对手Anthropic的新模型上线。

AI时代的科学研究：从“提出想法”转向“验证正确性”，16家机构用案例敲响审稿警钟

AI 2026-02-14

Google Research、卡内基梅隆大学等16家机构通过使用 Gemini Deep Think 的研究案例表明：AI已能在数学与物理等领域充当“共同研究者”，科学研究的瓶颈正从创意生成转向结果验证，现有同行评审体系面临结构性挑战。

新创实验室“扑翼飞机”获1.8亿美元融资聚焦低数据需求大模型训练路径

商业 2026-02-08 科技最前沿

新成立的人工智能实验室“扑翼飞机”宣布完成1.8亿美元种子轮融资，投资方包括谷歌风投、红杉资本和Index。该实验室被视为少数明确选择“以研究为驱动”路线、尝试突破现有规模扩展范式的机构之一。

仅30人团队的Arcee AI发布4000亿参数开源大模型 Trinity

商业 2026-02-07 科技最前沿

美国初创公司 Arcee AI 宣布推出 4000 亿参数大语言模型 Trinity，采用 Apache 许可证开源。公司称，该模型在多项基准测试中与 Meta 的 Llama 4 Maverick 400B 及清华大学相关团队的 GLM-4.5 处于同一水平，是美国公司发布的最大开源基础模型之一。

从“书呆子”Gemini到“前卫”Grok：开发者如何塑造AI助手的行为边界

商业 2026-02-05 科技最前沿

多家科技公司正通过规则清单、伦理“宪法”和可调语气等方式塑造聊天机器人的“性格”。这些设定不仅影响互动体验，也会改变模型在敏感议题、风险内容与用户需求之间的取舍。

中国AI企业密集开源推理模型：阿里发布「Qwen3-Max-Thinking」，Moonshot AI推出「Kimi K2.5」

AI 2026-02-03

阿里巴巴与Moonshot AI在2026年1月连续发布面向复杂推理与智能体应用的开源大模型「Qwen3-Max-Thinking」与「Kimi K2.5」，在多项权威基准测试中表现接近或达到国际顶级水平，并面向开发者开放API与模型权重。

OpenAI 推出 GPT-5.3-Codex 扩展编码代理至更广泛工作场景

Anthropic 推出升级模型 Claude Opus 4.6 强化大规模代码库处理能力

西班牙初创Multiverse Computing发布免费压缩大模型HyperNova 60B

OpenAI 发布「GPT-5.4 Thinking」「GPT-5.4 Pro」：大幅强化表格、文档与编码等专业实务能力

Anthropic新模型Opus 4.6在AI代理法律基准测试中显著提升

Anthropic发布Opus 4.6 引入“代理团队”并扩展应用场景

OpenAI发布GPT-5.3 Codex自主编码模型对标Anthropic新产品

AI时代的科学研究：从“提出想法”转向“验证正确性”，16家机构用案例敲响审稿警钟

新创实验室“扑翼飞机”获1.8亿美元融资聚焦低数据需求大模型训练路径

仅30人团队的Arcee AI发布4000亿参数开源大模型 Trinity

从“书呆子”Gemini到“前卫”Grok：开发者如何塑造AI助手的行为边界

中国AI企业密集开源推理模型：阿里发布「Qwen3-Max-Thinking」，Moonshot AI推出「Kimi K2.5」

标签

近期热门

跑测超1000公里后，《卫报》评出2026年英国跑步手表推荐榜单

尼日利亚将加密交易纳入税号体系推进基于身份的监管改革

适合长期阅读的宏观经济经典书籍推荐：从入门框架到全球视角

解释美联储与全球金融体系的经典财经书有哪些：适合想系统理解货币与金融秩序的读者

DebitMyData称正构建“人类能源网络”基础设施，拟为AI数据中心扩张提供信任与合规层

Lam Research 2025年股价强劲攀升估值与期权对冲凸显2026年风险

AD