深圳河套学院 2026 年 5 月 28 日宣布,该院 AI 训练平台项目团队联合哈尔滨工业大学(深圳)、深圳大数据研究院、华为相关团队以及深智城 AI 算力平台,在完全由国产芯片构成的计算集群上,成功使用华为 AI 芯片「Ascend 910C」对大模型 DeepSeek‑V4‑Pro 进行全参数后训练,并实现稳定运行。
DeepSeek‑V4‑Pro 是 DeepSeek 于 2026 年 4 月发布的「DeepSeek‑V4」系列中的高端型号。该模型总参数规模约 1.6 万亿,在推理阶段实际激活的参数约为 490 亿,并支持最长 100 万 token 的上下文长度。本次工作被视为在中国自研 AI 芯片基础设施上,对这一量级大模型开展全参数后训练的代表性案例。
近千片 Ascend 910C 组成集群,稳定跑完 1500 余步训练
据深圳河套学院介绍,项目团队在约 1 个月时间内完成训练环境搭建,构建了规模接近 1000 片 Ascend 910C 的计算集群,并在此基础上,对 DeepSeek‑V4‑Pro 开展全参数持续学习和 SFT(监督式微调),整体训练过程保持稳定。
本次训练共执行超过 1500 个 step,期间未出现 skipped iterations 和 NaN iterations,稳定性较高。模型算力利用率(MFU)超过 30%,主要训练算子在优化后效率较初始版本提升约 14%。在 Ascend 超节点上,MFU 可稳定维持在 34.9% 左右。
在公开可查的信息范围内,深圳河套学院认为,这是首个由第三方机构在中国国产计算集群上完成 DeepSeek‑V4‑Pro 全参数后训练的工程实践案例。
不只是 LoRA 微调,而是「全参数后训练」
此次工作的关键在于,并非只对推理阶段或少量参数进行轻量级微调,而是对模型全部参数进行后训练。
DeepSeek‑V4‑Pro 采用 MoE(Mixture of Experts,专家混合)结构,可按需激活部分「专家」以提升推理效率。但在训练阶段,MoE 会带来专家间负载均衡、节点间通信等方面的复杂性。再加上 1.6 万亿参数的规模,模型权重、梯度、激活值以及优化器状态都必须分布在多片芯片上协同处理。

项目团队综合采用数据并行、张量并行、流水线并行和专家并行等多种并行策略,在集群上构建起适配超大模型的分布式训练方案。同时,针对 Ascend 环境,对 MoE 路由、归一化、矩阵运算等核心算子进行了定制化优化,并实现对各专家负载的实时监控与动态均衡,以保证训练效率和稳定性。
面向数学建模任务的 SFT,性能指标全面提升
在工程验证的同时,团队还尝试面向工业自动化与运筹优化等场景,增强模型的数学建模能力。
研究人员构建了约 3000 条面向数学建模任务的 SFT 数据,对 DeepSeek‑V4‑Pro 进行后训练。根据深圳河套学院给出的评估结果,在 NL4OPT、OptiBench、ORGEval Code、ORGEval WL 四项指标上,模型表现均优于后训练前。
例如,NL4OPT 指标由 93.1% 提升至 95.9%,ORGEval WL 则从 40.6% 提升到 45.7%。学院认为,这表明在国产算力平台上,不仅可以稳定运行超大模型训练流程,还能够针对特定专业任务实现能力增强。
国产 AI 基础设施从推理走向训练
在大规模 AI 模型开发中,业界长期高度依赖以 NVIDIA GPU 为核心的高性能计算平台。此次实践显示,基于华为 Ascend 910C 的国产 AI 芯片集群,已经开始从推理和轻量微调,进一步迈向负载更重的全参数后训练阶段。
需要强调的是,目前公开的信息主要表明:团队在 Ascend 910C 集群上,稳定完成了 DeepSeek‑V4‑Pro 的全参数持续学习和 SFT。这并不意味着已经在 Ascend 910C 上从零开始完成同规模模型的预训练,也尚不足以证明国产芯片已在所有环节完全替代 NVIDIA GPU。
尽管如此,在 1.6 万亿参数级 MoE 大模型上成功实施全参数后训练,本身已是中国 AI 基础设施能力的重要信号:国产算力平台正逐步将适用范围,从推理与小规模微调,扩展到大模型训练这一更为关键且资源密集的环节。
