清华团队与微软研究人员合作:编码模型仅用合成数据训练,部署于英伟达H20与H200芯片

richlovec 1500_400 (1)
 

一支由清华大学牵头、并与微软研究人员合作的团队近日披露,其构建了一套在训练阶段完全不接触真实世界数据的人工智能系统。该系统聚焦于编码任务而非通用对话,并在英伟达H20与H200芯片上完成训练与运行。

仅用合成样本训练的编码系统

据项目描述,该模型在学习阶段使用的训练样本全部由算法生成,未从公共代码库抓取数据。研究团队构建的是一套面向代码生成及相关开发流程的系统,训练语料由人工智能生成的函数、注释与错误样例组成,以此形成与人类编写代码库相隔离的训练路径。

训练与部署依赖英伟达H20和H200

在算力配置方面,项目披露其运行于英伟达H20与H200芯片之上。相关信息指出,在中国对英伟达顶级加速器获取受限的背景下,团队选择使用H20与H200作为训练与推理的主要硬件支撑,以保障仅依赖合成数据的实验能够推进。

报道同时提到,美国政府本月早些时候批准了向中国销售英伟达第二强AI芯片的许可,该决定被描述为中美贸易协议的一部分。在这一背景下,H20与H200的可获得性也成为该项目得以落地的重要条件。

合成数据路径与数据获取环境变化

该研究将合成数据作为训练核心,亦与数据获取环境变化相关。文中提到,国内监管机构加强了对大规模抓取中国网站的控制,全球平台也收紧了API访问,使得构建大规模、多样化语料库的难度上升。研究团队通过展示编码模型可基于合成数据集完成训练,强调数据生成在一定程度上可替代传统的数据收集方式。

模型定位与局限

研究人员将该系统定位为专用编码模型,而非通用聊天机器人。相关总结称,该模型不处理广泛对话任务或开放式推理,应用范围相对集中。

同时,报道也提及,仅在合成数据环境中训练可能带来偏差与盲点放大等风险。为应对相关问题,团队在训练与推理阶段依赖H20与H200提供的算力,通过扩大模型规模与训练步数等方式推进实验。

对AI研发路径的启示

该项目被视为在数据与芯片获取均受严格管理条件下的一次技术验证:通过合成数据管道与可获得的高端加速器组合,研究团队尝试探索在受限环境中构建可用AI系统的路径。报道认为,这类实践也反映出硬件供应商在不同监管体系下对产品线进行细分的趋势。


分享:


发表评论

登录后才可评论。 去登录