研究:顶级AI编码工具在结构化输出中约四分之一结果出错
滑铁卢大学最新研究显示,即便是最先进的大型语言模型,在结构化输出的软件开发任务中也只能达到约75%的准确率,可靠性仍不足以脱离人工监督。
数学家发起“First Proof”挑战,测试AI在研究级数学证明中的能力边界
由哈佛、斯坦福等多所高校数学家组成的团队发布10道未公开研究题,邀请AI公司作答,以更客观评估人工智能在研究数学证明环节的实际水平。
研究:ChatGPT在科学真假判断中仅获“D”等表现
华盛顿州立大学团队用数百条科学假设测试ChatGPT的真假判断能力,结果显示其准确率虽高于随机猜测,但仍远不足以被视为可靠工具,且在同一问题上的回答前后不一。
一种更有效识别过度自信大型语言模型的方法
这项新的不确定性度量方法能够识别模型幻觉,帮助用户判断是否信任AI模型。
Perplexity推出新“Computer”工具 强调多模型协同与高端订阅定位
Perplexity面向每月200美元的最高订阅档推出新工具“Perplexity Computer”,主打多模型协同与复杂工作流自动化,进一步押注高价值专业用户市场。
借鉴鸟群行为的新算法,帮助大模型减少长文档摘要“幻觉”
研究团队提出一种受鸟群自组织启发的预处理框架,将长文档拆分并聚类为“句子鸟群”,在输入大型语言模型前先去噪与去重,从而提升长文档摘要的事实准确性。
小型边缘计算机或成农村自动驾驶“本地大脑”
华盛顿州立大学研究表明,将压缩后的大型语言模型部署在廉价小型计算模块上,有望在网络不稳定的农村地区,为自动驾驶车辆提供本地决策能力。
研究:AI 代理已能自主协同发动宣传战,无需人工指挥
南加州大学团队通过大规模模拟发现,大型语言模型驱动的 AI 代理可以在几乎没有人工干预的情况下,自主协同放大同一叙事,制造“共识假象”,对选举等民主进程构成现实威胁。
人工智能加速“出圈”:从虚拟走向现实世界
自动驾驶与类人机器人等应用正在推动人工智能从虚拟空间走向实体世界,相关技术进展与潜在风险同步显现。
Airbnb拟将大模型技术深度融入搜索、行程规划与客服体系
Airbnb首席执行官Brian Chesky在第四季度业绩电话会上表示,公司正推进以大型语言模型为基础的产品升级,涵盖搜索发现、行程规划、房东运营和客户支持等多个环节。
多智能体人工智能与机器人实现闭环实验室材料发现自动化
《Matter》刊发研究显示,中国科学院深圳先进技术研究院团队提出知识驱动的多智能体与机器人系统MARS,通过分层架构协同大型语言模型智能体与实验工具,实现端到端自主材料发现,并在钙钛矿材料实验中完成迭代优化与快速设计验证。
首尔国立大学团队开发基于大型语言模型的材料重新设计框架,瞄准难以合成结构
研究团队提出“SynCry”框架,将晶体结构转化为可逆文本表示并迭代微调,实现将预测为难以合成的材料结构重新设计为实验可行形式。相关成果发表于《美国化学会杂志》。
