华为 Ascend 910C 完成 DeepSeek-V4-Pro 全参数后训练：大规模 AI 训练摆脱 NVIDIA 依赖的关键一步

AI 2026-06-14 华为, Ascend 910C, DeepSeek-V4-Pro, 大模型训练, 国产AI芯片 2 次浏览

深圳河套学院 2026 年 5 月 28 日宣布，该院 AI 训练平台项目团队联合哈尔滨工业大学（深圳）、深圳大数据研究院、华为相关团队以及深智城 AI 算力平台，在完全由国产芯片构成的计算集群上，成功使用华为 AI 芯片「Ascend 910C」对大模型 DeepSeek‑V4‑Pro 进行全参数后训练，并实现稳定运行。

DeepSeek‑V4‑Pro 是 DeepSeek 于 2026 年 4 月发布的「DeepSeek‑V4」系列中的高端型号。该模型总参数规模约 1.6 万亿，在推理阶段实际激活的参数约为 490 亿，并支持最长 100 万 token 的上下文长度。本次工作被视为在中国自研 AI 芯片基础设施上，对这一量级大模型开展全参数后训练的代表性案例。

近千片 Ascend 910C 组成集群，稳定跑完 1500 余步训练

据深圳河套学院介绍，项目团队在约 1 个月时间内完成训练环境搭建，构建了规模接近 1000 片 Ascend 910C 的计算集群，并在此基础上，对 DeepSeek‑V4‑Pro 开展全参数持续学习和 SFT（监督式微调），整体训练过程保持稳定。

本次训练共执行超过 1500 个 step，期间未出现 skipped iterations 和 NaN iterations，稳定性较高。模型算力利用率（MFU）超过 30%，主要训练算子在优化后效率较初始版本提升约 14%。在 Ascend 超节点上，MFU 可稳定维持在 34.9% 左右。

在公开可查的信息范围内，深圳河套学院认为，这是首个由第三方机构在中国国产计算集群上完成 DeepSeek‑V4‑Pro 全参数后训练的工程实践案例。

不只是 LoRA 微调，而是「全参数后训练」

此次工作的关键在于，并非只对推理阶段或少量参数进行轻量级微调，而是对模型全部参数进行后训练。

DeepSeek‑V4‑Pro 采用 MoE（Mixture of Experts，专家混合）结构，可按需激活部分「专家」以提升推理效率。但在训练阶段，MoE 会带来专家间负载均衡、节点间通信等方面的复杂性。再加上 1.6 万亿参数的规模，模型权重、梯度、激活值以及优化器状态都必须分布在多片芯片上协同处理。

项目团队综合采用数据并行、张量并行、流水线并行和专家并行等多种并行策略，在集群上构建起适配超大模型的分布式训练方案。同时，针对 Ascend 环境，对 MoE 路由、归一化、矩阵运算等核心算子进行了定制化优化，并实现对各专家负载的实时监控与动态均衡，以保证训练效率和稳定性。

面向数学建模任务的 SFT，性能指标全面提升

在工程验证的同时，团队还尝试面向工业自动化与运筹优化等场景，增强模型的数学建模能力。

研究人员构建了约 3000 条面向数学建模任务的 SFT 数据，对 DeepSeek‑V4‑Pro 进行后训练。根据深圳河套学院给出的评估结果，在 NL4OPT、OptiBench、ORGEval Code、ORGEval WL 四项指标上，模型表现均优于后训练前。

例如，NL4OPT 指标由 93.1% 提升至 95.9%，ORGEval WL 则从 40.6% 提升到 45.7%。学院认为，这表明在国产算力平台上，不仅可以稳定运行超大模型训练流程，还能够针对特定专业任务实现能力增强。

国产 AI 基础设施从推理走向训练

在大规模 AI 模型开发中，业界长期高度依赖以 NVIDIA GPU 为核心的高性能计算平台。此次实践显示，基于华为 Ascend 910C 的国产 AI 芯片集群，已经开始从推理和轻量微调，进一步迈向负载更重的全参数后训练阶段。

需要强调的是，目前公开的信息主要表明：团队在 Ascend 910C 集群上，稳定完成了 DeepSeek‑V4‑Pro 的全参数持续学习和 SFT。这并不意味着已经在 Ascend 910C 上从零开始完成同规模模型的预训练，也尚不足以证明国产芯片已在所有环节完全替代 NVIDIA GPU。

尽管如此，在 1.6 万亿参数级 MoE 大模型上成功实施全参数后训练，本身已是中国 AI 基础设施能力的重要信号：国产算力平台正逐步将适用范围，从推理与小规模微调，扩展到大模型训练这一更为关键且资源密集的环节。

发表评论

登录后才可评论。去登录