问答:研究人员称人工智能或在五年内具备独立提出并验证科学假设的能力
洛桑联邦理工学院的罗伯特·韦斯特与西北大学的阿格内斯·霍尔瓦特在对话中表示,社交媒体已成为公众获取科学信息的重要渠道,而大型语言模型正加速介入论文写作与评审流程,并可能在未来数年进入“提出研究问题”的阶段。
Unchained Labs推出自动化平台Stuntman,集成自然语言AI与模块化硬件
Unchained Labs发布新一代自动化平台Stuntman,称其将大型语言模型驱动的AI嵌入系统,使科研人员可用自然语言生成并执行实验工作流程,同时保留程序化控制与开放数据记录。
Coveo推出托管MCP服务器,扩展与ChatGPT Enterprise和Claude等大模型的集成
Coveo宣布发布托管模型上下文协议(MCP)服务器,作为安全互操作层连接企业内容与主流大型语言模型,并在ChatGPT Enterprise上线官方应用以实现安全访问与检索。
研究:用于排名最新大型语言模型的平台可能不够可靠
仅移除极少部分众包数据就能显著改变在线排名平台的结果,影响模型选择的准确性。
助力AI代理搜索,提升大型语言模型的最佳结果获取能力
EnCompass通过回溯和多次尝试执行AI代理程序,寻找大型语言模型(LLM)生成的最佳输出,帮助开发者更高效地使用AI代理。
反向智能:建筑学生将新型人机交互带入厨房
麻省理工学院建筑系学生设计了一款名为“Kitchen Cosmo”的智能厨房设备,利用大型语言模型(LLM)实现实时、物理交互,帮助用户创造个性化菜谱,推动人工智能从屏幕走向现实生活。
研究称AI聊天机器人或加剧“邓宁-克鲁格效应”:高自信与低校准并存
人工智能助手常被视为减少人类偏见的工具,但多项研究与测试结果显示,聊天机器人在输出不确定信息时往往仍呈现出较高自信,并可能影响用户对自身能力的判断。一些研究者据此指出,相关系统在“应当谨慎时却显得笃定”的表现,与心理学所称的邓宁-克鲁格效应(能力不足者更易高估自身水平)存在相似之处,并已从实验现象延伸为安全与治理层面的现实议题。 人机协作提升得分,但削弱自我评估准确性 围绕大型语言模型(LLM)的
提升大型语言模型能力的新方法
MIT-IBM Watson AI实验室的研究人员开发了一种表达性更强的架构,能够在大型语言模型中实现更好的状态跟踪和长文本的顺序推理。
辛顿警示:基于大型语言模型的企业工具或难满足合规与审计要求
被称为“人工智能教父”的杰弗里·辛顿(Geoffrey Hinton)近期在公开表态中对企业界快速推进大型语言模型(LLM)商业化提出质疑。在他看来,当前一代生成式人工智能系统在可靠性、可控性与可审计性方面存在结构性缺陷,难以与企业对准确性、问责制与安全性的要求相匹配。相关观点也与行业中企业人工智能项目高失败率的现实形成呼应。 辛顿:生成式系统“根本上不可靠”,难以与企业约束对齐 辛顿长期参与并推
OpenAI 调整领导架构,强化企业业务布局瞄准 2026 年
OpenAI 任命 Barret Zoph 负责企业业务拓展,在其重返公司一周后即接手相关职能,企业市场被列为公司 2026 年重点方向。
研究:大型语言模型呈现人类式“我们与他们”群体偏见
新研究发现,多种主流大型语言模型会从训练文本中“继承”人类社会中的“我们与他们”偏见,并在默认与角色设定等不同条件下表现出对内群体更积极、对外群体更消极的语言模式。研究团队还提出了名为 ION 的缓解方法,可显著降低相关情感差异。
研究:近三分之一新软件代码由人工智能参与编写
一项发表在《科学》杂志的最新研究表明,生成式人工智能正在快速渗透软件开发流程。在美国,人工智能辅助的新代码比例从2022年的5%跃升至2025年初的29%,而中国仅为12%。尽管使用率在新手程序员中最高,但真正显著的生产力收益主要集中在资深开发者身上。
