6月11日讯 刚刚过去的周末,中国AI产业迎来了一场足以载入史册的技术突破。
6月11日,深圳河套学院联合哈尔滨工业大学(深圳)、深圳市大数据研究院及华为有关团队正式对外公布:依托由1000颗华为昇腾910C芯片组成的国产AI算力集群,成功完成1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。模型算力利用率(MFU)稳定超过30%,关键训练算子效率提升14%,全程1500余步训练无一次中断或报错,故障率仅0.3‰,各项指标均达到工业级运行标准。
这不是一次实验室里的 Demo,而是一场真刀真枪的硬仗——它用无可辩驳的工程结果证明:国产AI芯片,已经跨过了那条最难的门槛。
"全参数后训练":国产算力的珠穆朗玛峰
很多人只记住了"1.6万亿参数"这个数字,却没搞懂"全参数后训练"这六个字的分量。
AI大模型从诞生到能用,核心分两个阶段。推理,是让已经训练好的模型回答问题,参数固定不变,对算力要求相对较低——这也是国产芯片此前最擅长的领域,国内已有大量AI应用采用国产推理芯片部署。
训练,则是让模型从零开始学习,通过海量数据不断调整参数。训练的难度和算力需求与推理不在一个量级,通常需要数千甚至数万张芯片组成集群连续运行数周甚至数月。而"全参数后训练",更是训练中最艰难的环节——需要对模型全部1.6万亿个参数进行精细化微调,让模型学会遵循人类指令、完成特定任务。
如果把训练万亿级参数大模型比作解一道超级复杂的数学题,那每一张计算卡就像一名解题员。他们不仅要分工明确、日夜不停地连轴转,还不能有人偷懒、不能有人出错、更不能有人掉队。
更棘手的是,DeepSeek-V4-Pro采用的是当前最主流的混合专家(MoE)架构。推理时只需激活约490亿参数,但训练时所有专家都要同时学习、互相通信同步信息,专家之间的数据交换量是普通模型的几十倍。这也是为什么业内此前普遍认为:国产芯片根本扛不住这么大的全参数训练。
三大工程突破,把不可能变成可能
面对这座"珠穆朗玛峰",团队没有搞花里胡哨的概念,而是靠三个扎扎实实的工程突破杀出了一条路。
第一,"显存拼图"。 1.6万亿个参数的数据量极其庞大,不可能塞进任何一张单独的计算卡。团队设计了一套极其精密的分布式承载方案,把整个模型像拼图一样拆成一小块一小块,精确分配到每一张芯片上,哪块卡负责哪部分参数、什么时候需要和其他卡交换数据,都算得丝毫不差。
第二,"负载均衡"。 MoE模型最头疼的问题就是忙闲不均——有的专家任务排成长队,有的专家却闲得没事干。之前国产集群跑MoE模型,算力利用率普遍偏低。这次团队专门针对MoE架构优化了调度算法,动态给每个专家分配任务,彻底解决了跨卡通信拥堵问题,最终将算力利用率推到了30%以上。
第三,"全程不掉线"。 大模型训练最怕的就是跑了几天几夜,突然一个硬件故障或软件错误,整个训练直接崩溃。这次训练1500多步全程零中断,背后是一整套完整的全链路监控和容错体系。
集群化突围:用系统设计弥补单卡差距
单论单颗芯片性能,昇腾910C与英伟达最新旗舰确实存在差距。但华为走的是另一条路——集群规模化。
昇腾384超节点把384颗芯片通过高速总线连在一起,形成一个巨大的计算单元。华为用系统设计弥补单芯片的不足,用规模换性能,用算法适配榨干每一分硬件潜力。正如任正非所言:"我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。"
从"卡脖子"到"自主可控",这一步跨越,直接改写了全球AI算力格局。摩根士丹利分析师Charlie Chan在5月发布的研报中预测,2026年国内AI加速芯片市场,华为凭借昇腾系列将拿下62%的市场占比,寒武纪紧随其后占据14%。国产ASIC芯片的算力实测已比英伟达受管制后获准对华售卖的顶配H20芯片高出50%至150%。
最被低估的价值:42名实战工程师
这次突破最被低估的价值,其实是人才培养。
深圳河套学院没有把这个项目当成单纯的技术攻关,而是把它变成了一个活生生的课堂。学生直接进入真实训练场景,从环境搭建开始全程参与。截至目前,项目已培养42名学生,形成了青年教师指导、博士生核心攻坚、工程团队支撑的完整梯队。
很多人说国产AI缺芯片,其实更缺的是真正有实战经验的工程师。大模型训练是一门工程科学,很多东西书本上学不到,必须亲手跑过才能明白。当越来越多的年轻人在万亿级集群上摸爬滚打,国产AI产业最宝贵的财富,正在这群人手中生长。
当然,我们必须清醒:无论是单卡性能还是软件生态的完善程度,国产算力与世界顶尖水平之间仍有不小差距。英伟达CUDA生态的惯性巨大,先进制程的制约短期内不会消失。
但这次突破至少说明了一件事:在极限封锁下,这条路是被堵死了,还是真的能走通——已经有了一次实战检验的结果。
当国产芯片能稳定支撑万亿级参数模型的完整训练,中国AI发展的算力底座,终于有了自主可控的选项。这不是终点,但绝对是一个新时代的起点
